ai-engineering-from-scratch-zh/phases/01-math-foundations/04-calculus-for-ml/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "函数在某一点的导数告诉你什么？",
      "options": [
        "函数在该点的取值",
        "函数在该点的变化率（斜率）",
        "函数到该点为止下方的面积",
        "函数能达到的最大值"
      ],
      "correct": 1,
      "explanation": "导数 f'(x) 衡量输入每变化一个单位时输出变化多少。在几何上，它是该点切线的斜率。"
    },
    {
      "stage": "pre",
      "question": "在机器学习的语境中，梯度是什么？",
      "options": [
        "一种衡量模型准确率的指标",
        "由所有偏导数组成的向量，指向最陡上升方向",
        "训练时使用的学习率",
        "预测值与真实值之间的差"
      ],
      "correct": 1,
      "explanation": "梯度把每个偏导数汇集成一个向量。它指向使函数增长最快的方向。为了最小化损失，你要沿梯度的反方向移动。"
    },
    {
      "stage": "post",
      "question": "在梯度下降中，更新规则 'w = w - lr * dL/dw' 实现了什么？",
      "options": [
        "它增大损失以测试模型的鲁棒性",
        "它沿着减小损失的方向调整每个权重，调整幅度由学习率缩放",
        "它把权重重置为初始值减去梯度",
        "它把权重归一化为模长为 1"
      ],
      "correct": 1,
      "explanation": "dL/dw 告诉你哪个方向会增大损失。减去它（乘以学习率）会把权重朝减小损失的方向移动。对模型中的每个权重都重复这一过程。"
    },
    {
      "stage": "post",
      "question": "为什么牛顿法（使用 Hessian 矩阵）不能直接应用于拥有数百万参数的神经网络？",
      "options": [
        "牛顿法只对凸函数有效",
        "Hessian 是一个 N x N 矩阵，每步需要 O(N^2) 的存储和 O(N^3) 的计算，对于数百万参数而言难以处理",
        "牛顿法需要解析导数，而神经网络无法计算解析导数",
        "牛顿法对深层网络收敛太慢"
      ],
      "correct": 1,
      "explanation": "对于 N=100 万参数，Hessian 有 1 万亿个元素。计算并求逆它是不可能的。这就是为什么我们使用一阶方法（SGD、Adam），它们以低成本近似二阶信息。"
    },
    {
      "stage": "post",
      "question": "f'(x) 的数值（中心差分）近似是什么？",
      "options": [
        "f(x+h) / h",
        "(f(x+h) - f(x)) / h",
        "(f(x+h) - f(x-h)) / (2*h)",
        "f(x) * h"
      ],
      "correct": 2,
      "explanation": "中心差分 (f(x+h) - f(x-h)) / (2h) 比前向差分更准确，因为它对 x 两侧的斜率取平均，抵消了主导误差项。"
    }
  ]
}