ai-engineering-from-scratch-zh/phases/03-deep-learning-core/05-loss-functions/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
[
  {
    "question": "在神经网络训练中，损失函数代表什么？",
    "options": [
      "错误预测的数量",
      "一种可微的度量，衡量模型预测有多错，优化器对其进行最小化",
      "训练数据集的大小",
      "学习率调度"
    ],
    "correct": 1,
    "explanation": "损失函数把预测和目标映射为一个标量，优化器通过梯度下降对其进行最小化。它必须可微，以便能计算梯度。",
    "stage": "pre"
  },
  {
    "question": "为什么分类任务中交叉熵比 MSE 更受青睐？",
    "options": [
      "交叉熵计算更快",
      "交叉熵通过 -log(p) 指数级地惩罚自信的错误预测，而 MSE 在接近 0 和 1 时给出微弱的梯度",
      "MSE 只对回归有效",
      "交叉熵不需要标签"
    ],
    "correct": 1,
    "explanation": "当模型自信地预测了错误类别时（真实类别的 p 接近 0），-log(p) 会产生巨大的损失和强烈的梯度。在同样的情况下 MSE 只产生微弱的梯度，因为 sigmoid 在接近 0 和 1 处是平坦的。",
    "stage": "pre"
  },
  {
    "question": "如果你在二分类中使用 MSE 损失会发生什么？",
    "options": [
      "训练立即发散",
      "模型可以通过对所有样本都预测 0.5 来最小化损失，在不学习的情况下达到 MSE=0.25",
      "模型正常训练",
      "梯度爆炸"
    ],
    "correct": 1,
    "explanation": "在平衡的二分类数据集上使用 MSE 时，对每个输入都预测 0.5 会得到 MSE=0.25——这是在不做任何区分的情况下可达到的最小值。模型在不学习任何有用模式的情况下就满足了损失要求。",
    "stage": "post"
  },
  {
    "question": "标签平滑做什么，它为什么有用？",
    "options": [
      "它从数据集中移除带噪声的标签",
      "它用 0.1/0.9 这样的软值替换硬性的 0/1 目标，防止过度自信的预测并改善泛化",
      "它对损失应用滑动平均",
      "它平滑学习率调度"
    ],
    "correct": 1,
    "explanation": "标签平滑把目标从 [0,0,1,0] 改为 [0.025,0.025,0.925,0.025]（alpha=0.1 时）。这防止模型为达到硬性目标而把 logits 推向无穷，从而减少过度自信。",
    "stage": "post"
  },
  {
    "question": "在对比损失（InfoNCE）中，温度参数起什么作用？",
    "options": [
      "它控制学习率",
      "它控制相似度分布的尖锐程度——温度越低，正负样本之间的区分越严格",
      "它设定负样本的数量",
      "它决定嵌入的维度"
    ],
    "correct": 1,
    "explanation": "温度在 softmax 之前对相似度分数做除法。较低的温度（例如 0.07）产生更尖锐的分布，模型必须清晰地把正样本与负样本分开。较高的温度则更宽容。",
    "stage": "post"
  }
]