ai-engineering-from-scratch-zh/phases/01-math-foundations/08-optimization/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "在训练神经网络的语境中，“优化”意味着什么？",
      "options": [
        "让代码运行更快",
        "找到使损失函数最小化的模型权重",
        "减少模型中的参数数量",
        "为训练选择最佳硬件"
      ],
      "correct": 1,
      "explanation": "训练神经网络本身就是优化。损失函数衡量模型有多错，而优化就是找到使损失尽可能小的权重值。"
    },
    {
      "stage": "pre",
      "question": "如果梯度下降时学习率过大会发生什么？",
      "options": [
        "训练更快地收敛到全局最小值",
        "优化器越过最小值，损失发散（来回震荡或增大）",
        "梯度变为零",
        "模型自动降低学习率"
      ],
      "correct": 1,
      "explanation": "学习率过大会使每一步都越过谷底，可能在两壁之间来回弹跳，甚至完全发散。损失不降反增。"
    },
    {
      "stage": "post",
      "question": "Adam 与普通梯度下降有何不同？",
      "options": [
        "Adam 使用固定学习率，而梯度下降使用自适应学习率",
        "Adam 跟踪梯度及其平方的滑动平均，为每个权重提供各自的自适应学习率",
        "Adam 计算精确的二阶导数，而梯度下降使用一阶导数",
        "Adam 每步处理整个数据集，而梯度下降使用小批量"
      ],
      "correct": 1,
      "explanation": "Adam 为每个权重维护一阶矩（梯度方向）和二阶矩（梯度大小）的估计。除以二阶矩的平方根后，梯度大的权重步长小、梯度小的权重步长大。"
    },
    {
      "stage": "post",
      "question": "为什么小批量 SGD 中的噪声被认为是有益的，而不只是一种麻烦？",
      "options": [
        "噪声减少训练时的内存占用",
        "噪声帮助优化器逃离浅的局部极小值和鞍点，而无噪声的优化器会卡在那里",
        "噪声没有益处；它总是减慢收敛",
        "噪声使损失函数变为凸函数"
      ],
      "correct": 1,
      "explanation": "随机小批量带来的随机噪声提供了随机扰动，可以把优化器推出浅的局部极小值和鞍点，从而带来更好的泛化。"
    },
    {
      "stage": "post",
      "question": "余弦退火学习率调度做什么？",
      "options": [
        "在整个训练过程中按余弦曲线提升学习率",
        "以较高学习率开始，按余弦曲线平滑下降，并可选择性地进行预热",
        "在两个固定值之间交替切换学习率",
        "把学习率设为当前 epoch 数的余弦值"
      ],
      "correct": 1,
      "explanation": "余弦退火按半余弦曲线把学习率从 lr_max 平滑降到 lr_min。这在早期提供大步长以快速推进，在后期提供小步长以精细收敛。"
    }
  ]
}