ai-engineering-from-scratch-zh/phases/02-ml-fundamentals/09-model-evaluation/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
[
  {
    "id": "eval-pre-1",
    "stage": "pre",
    "question": "为什么绝不应该根据测试集表现来调整超参数？",
    "options": [
      "测试集太小，无法给出可靠估计",
      "根据测试结果调整模型实际上等于在测试集上训练，使所报告的性能失去意义",
      "训练后超参数无法更改",
      "测试集的特征总是与训练集不同"
    ],
    "correct": 1,
    "explanation": "每当你根据测试表现调整模型时，就把测试信息泄漏进了你的建模决策。测试集必须在最后只用一次，以获得无偏估计。"
  },
  {
    "id": "eval-pre-2",
    "stage": "pre",
    "question": "某数据集有 95% 的负样本和 5% 的正样本。一个模型对每个样本都预测“负”。它的准确率是多少？",
    "options": [
      "50%",
      "5%",
      "95%",
      "0%"
    ],
    "correct": 2,
    "explanation": "准确率 = 正确预测数 / 总数 = 950/1000 = 95%。这说明了为什么对不平衡数据而言准确率具有误导性——一个毫无用处的模型看起来却很好。"
  },
  {
    "id": "eval-post-1",
    "stage": "post",
    "question": "在 K=5 的 K 折交叉验证中，每个数据点被用作验证多少次？",
    "options": [
      "5 次",
      "恰好一次",
      "取决于随机种子",
      "从不——所有数据都用于训练"
    ],
    "correct": 1,
    "explanation": "在 K 折交叉验证中，数据被分成 K 个相等的折。每一折恰好被用作验证集一次，而其余 K-1 折用于训练。"
  },
  {
    "id": "eval-post-2",
    "stage": "post",
    "question": "一条学习曲线显示训练分数 = 0.95、验证分数 = 0.60，且增加数据也不见改善。你应该尝试什么？",
    "options": [
      "收集更多训练数据",
      "使用更简单的模型或加入正则化以降低方差（过拟合）",
      "移除验证集以给模型更多训练数据",
      "提高学习率"
    ],
    "correct": 1,
    "explanation": "训练分数（高）与验证分数（低）之间的巨大差距是高方差（过拟合）。解决办法是更简单的模型、更强的正则化或类似 dropout 的技术——如果差距持续存在，增加数据并不能解决。"
  },
  {
    "id": "eval-post-3",
    "stage": "post",
    "question": "一个二分类器的 AUC-ROC = 0.5。这说明了什么？",
    "options": [
      "模型完美地分开了两个类别",
      "在把正样本排在负样本之前这一点上，模型表现不比随机猜测更好",
      "模型的准确率为 50%",
      "模型的精确率和召回率相等"
    ],
    "correct": 1,
    "explanation": "AUC-ROC = 0.5 意味着模型对正负样本的排序不比随机更好。AUC = 1.0 才是完美分离。该指标与阈值无关。"
  }
]