-
Notifications
You must be signed in to change notification settings - Fork 36
Expand file tree
/
Copy pathquiz.json
More file actions
64 lines (64 loc) · 2.89 KB
/
Copy pathquiz.json
File metadata and controls
64 lines (64 loc) · 2.89 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
"questions": [
{
"stage": "pre",
"question": "在训练神经网络的语境中,“优化”意味着什么?",
"options": [
"让代码运行更快",
"找到使损失函数最小化的模型权重",
"减少模型中的参数数量",
"为训练选择最佳硬件"
],
"correct": 1,
"explanation": "训练神经网络本身就是优化。损失函数衡量模型有多错,而优化就是找到使损失尽可能小的权重值。"
},
{
"stage": "pre",
"question": "如果梯度下降时学习率过大会发生什么?",
"options": [
"训练更快地收敛到全局最小值",
"优化器越过最小值,损失发散(来回震荡或增大)",
"梯度变为零",
"模型自动降低学习率"
],
"correct": 1,
"explanation": "学习率过大会使每一步都越过谷底,可能在两壁之间来回弹跳,甚至完全发散。损失不降反增。"
},
{
"stage": "post",
"question": "Adam 与普通梯度下降有何不同?",
"options": [
"Adam 使用固定学习率,而梯度下降使用自适应学习率",
"Adam 跟踪梯度及其平方的滑动平均,为每个权重提供各自的自适应学习率",
"Adam 计算精确的二阶导数,而梯度下降使用一阶导数",
"Adam 每步处理整个数据集,而梯度下降使用小批量"
],
"correct": 1,
"explanation": "Adam 为每个权重维护一阶矩(梯度方向)和二阶矩(梯度大小)的估计。除以二阶矩的平方根后,梯度大的权重步长小、梯度小的权重步长大。"
},
{
"stage": "post",
"question": "为什么小批量 SGD 中的噪声被认为是有益的,而不只是一种麻烦?",
"options": [
"噪声减少训练时的内存占用",
"噪声帮助优化器逃离浅的局部极小值和鞍点,而无噪声的优化器会卡在那里",
"噪声没有益处;它总是减慢收敛",
"噪声使损失函数变为凸函数"
],
"correct": 1,
"explanation": "随机小批量带来的随机噪声提供了随机扰动,可以把优化器推出浅的局部极小值和鞍点,从而带来更好的泛化。"
},
{
"stage": "post",
"question": "余弦退火学习率调度做什么?",
"options": [
"在整个训练过程中按余弦曲线提升学习率",
"以较高学习率开始,按余弦曲线平滑下降,并可选择性地进行预热",
"在两个固定值之间交替切换学习率",
"把学习率设为当前 epoch 数的余弦值"
],
"correct": 1,
"explanation": "余弦退火按半余弦曲线把学习率从 lr_max 平滑降到 lr_min。这在早期提供大步长以快速推进,在后期提供小步长以精细收敛。"
}
]
}