-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
64 lines (64 loc) · 2.73 KB
/
Copy pathquiz.json
File metadata and controls
64 lines (64 loc) · 2.73 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
"questions": [
{
"stage": "pre",
"question": "函数在某一点的导数告诉你什么?",
"options": [
"函数在该点的取值",
"函数在该点的变化率(斜率)",
"函数到该点为止下方的面积",
"函数能达到的最大值"
],
"correct": 1,
"explanation": "导数 f'(x) 衡量输入每变化一个单位时输出变化多少。在几何上,它是该点切线的斜率。"
},
{
"stage": "pre",
"question": "在机器学习的语境中,梯度是什么?",
"options": [
"一种衡量模型准确率的指标",
"由所有偏导数组成的向量,指向最陡上升方向",
"训练时使用的学习率",
"预测值与真实值之间的差"
],
"correct": 1,
"explanation": "梯度把每个偏导数汇集成一个向量。它指向使函数增长最快的方向。为了最小化损失,你要沿梯度的反方向移动。"
},
{
"stage": "post",
"question": "在梯度下降中,更新规则 'w = w - lr * dL/dw' 实现了什么?",
"options": [
"它增大损失以测试模型的鲁棒性",
"它沿着减小损失的方向调整每个权重,调整幅度由学习率缩放",
"它把权重重置为初始值减去梯度",
"它把权重归一化为模长为 1"
],
"correct": 1,
"explanation": "dL/dw 告诉你哪个方向会增大损失。减去它(乘以学习率)会把权重朝减小损失的方向移动。对模型中的每个权重都重复这一过程。"
},
{
"stage": "post",
"question": "为什么牛顿法(使用 Hessian 矩阵)不能直接应用于拥有数百万参数的神经网络?",
"options": [
"牛顿法只对凸函数有效",
"Hessian 是一个 N x N 矩阵,每步需要 O(N^2) 的存储和 O(N^3) 的计算,对于数百万参数而言难以处理",
"牛顿法需要解析导数,而神经网络无法计算解析导数",
"牛顿法对深层网络收敛太慢"
],
"correct": 1,
"explanation": "对于 N=100 万参数,Hessian 有 1 万亿个元素。计算并求逆它是不可能的。这就是为什么我们使用一阶方法(SGD、Adam),它们以低成本近似二阶信息。"
},
{
"stage": "post",
"question": "f'(x) 的数值(中心差分)近似是什么?",
"options": [
"f(x+h) / h",
"(f(x+h) - f(x)) / h",
"(f(x+h) - f(x-h)) / (2*h)",
"f(x) * h"
],
"correct": 2,
"explanation": "中心差分 (f(x+h) - f(x-h)) / (2h) 比前向差分更准确,因为它对 x 两侧的斜率取平均,抵消了主导误差项。"
}
]
}