-
Notifications
You must be signed in to change notification settings - Fork 36
Expand file tree
/
Copy pathquiz.json
More file actions
62 lines (62 loc) · 2.82 KB
/
Copy pathquiz.json
File metadata and controls
62 lines (62 loc) · 2.82 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
[
{
"question": "在神经网络训练中,损失函数代表什么?",
"options": [
"错误预测的数量",
"一种可微的度量,衡量模型预测有多错,优化器对其进行最小化",
"训练数据集的大小",
"学习率调度"
],
"correct": 1,
"explanation": "损失函数把预测和目标映射为一个标量,优化器通过梯度下降对其进行最小化。它必须可微,以便能计算梯度。",
"stage": "pre"
},
{
"question": "为什么分类任务中交叉熵比 MSE 更受青睐?",
"options": [
"交叉熵计算更快",
"交叉熵通过 -log(p) 指数级地惩罚自信的错误预测,而 MSE 在接近 0 和 1 时给出微弱的梯度",
"MSE 只对回归有效",
"交叉熵不需要标签"
],
"correct": 1,
"explanation": "当模型自信地预测了错误类别时(真实类别的 p 接近 0),-log(p) 会产生巨大的损失和强烈的梯度。在同样的情况下 MSE 只产生微弱的梯度,因为 sigmoid 在接近 0 和 1 处是平坦的。",
"stage": "pre"
},
{
"question": "如果你在二分类中使用 MSE 损失会发生什么?",
"options": [
"训练立即发散",
"模型可以通过对所有样本都预测 0.5 来最小化损失,在不学习的情况下达到 MSE=0.25",
"模型正常训练",
"梯度爆炸"
],
"correct": 1,
"explanation": "在平衡的二分类数据集上使用 MSE 时,对每个输入都预测 0.5 会得到 MSE=0.25——这是在不做任何区分的情况下可达到的最小值。模型在不学习任何有用模式的情况下就满足了损失要求。",
"stage": "post"
},
{
"question": "标签平滑做什么,它为什么有用?",
"options": [
"它从数据集中移除带噪声的标签",
"它用 0.1/0.9 这样的软值替换硬性的 0/1 目标,防止过度自信的预测并改善泛化",
"它对损失应用滑动平均",
"它平滑学习率调度"
],
"correct": 1,
"explanation": "标签平滑把目标从 [0,0,1,0] 改为 [0.025,0.025,0.925,0.025](alpha=0.1 时)。这防止模型为达到硬性目标而把 logits 推向无穷,从而减少过度自信。",
"stage": "post"
},
{
"question": "在对比损失(InfoNCE)中,温度参数起什么作用?",
"options": [
"它控制学习率",
"它控制相似度分布的尖锐程度——温度越低,正负样本之间的区分越严格",
"它设定负样本的数量",
"它决定嵌入的维度"
],
"correct": 1,
"explanation": "温度在 softmax 之前对相似度分数做除法。较低的温度(例如 0.07)产生更尖锐的分布,模型必须清晰地把正样本与负样本分开。较高的温度则更宽容。",
"stage": "post"
}
]