-
Notifications
You must be signed in to change notification settings - Fork 36
Expand file tree
/
Copy pathquiz.json
More file actions
64 lines (64 loc) · 4.02 KB
/
Copy pathquiz.json
File metadata and controls
64 lines (64 loc) · 4.02 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
"questions": [
{
"stage": "pre",
"question": "为什么 SimCLR 需要 512-8192 的批大小,而监督的 ImageNet 训练用批 256 就行?",
"options": [
"SimCLR 更慢",
"每个样本需要许多负样本才能产生有用的对比信号;批本身就是负样本池。小批会让 InfoNCE 损失缺乏负样本,导致训练坍缩或停滞",
"批归一化要求这样",
"对比损失要除以批大小"
],
"correct": 1,
"explanation": "InfoNCE 损失把正样本对与批中所有其他样本进行排序对比。批为 32 时每个正样本有 30 个负样本;批为 1024 时有 2046 个。负样本越多 = 对比信号越尖锐。MoCo 引入了一个由过去特征组成的动量队列,使有效负样本数量超越批大小;当 GPU 内存限制了批大小时,这是标准技巧。"
},
{
"stage": "pre",
"question": "是什么防止 DINO 坍缩为恒定输出?",
"options": [
"仅靠强增强",
"中心化(从教师输出中减去每维的 EMA 均值)和锐化(较低的教师温度)的组合;中心化阻止某一维占主导,锐化阻止输出坍缩为均匀",
"大批大小",
"动量调度"
],
"correct": 1,
"explanation": "DINO 不使用显式负样本。没有中心化,某一个输出维度可能占主导,学生会学着总是预测它。没有锐化(较低的教师温度),教师的输出会变得近乎均匀,学生学着去匹配均匀,这同样是坍缩。两者合在一起使输出在各维度上保持多样、在每个样本上保持尖锐。"
},
{
"stage": "post",
"question": "MAE 遮蔽 75% 的图块。BERT 遮蔽 15% 的 token。为什么不同?",
"options": [
"75% 是随意定的",
"图块的熵很低——相邻块高度相关——所以只遮蔽 15% 通过局部外推就能轻易解出。遮蔽 75% 迫使编码器学习全局语义特征以重建缺失的图块",
"BERT 在设计上要求 15%",
"文本 token 比图像图块更大"
],
"correct": 1,
"explanation": "遮蔽比例应当与模态的信息密度相匹配。文本:15% 就足够,因为每个 token 有许多合理的补全。图像:相邻像素几乎相互决定,所以低遮蔽比例无需真正的表示学习就能解出。MAE 的 75% 是经过校准、用来迫使语义理解的。"
},
{
"stage": "post",
"question": "在自监督预训练之后,“线性探针”评估只训练什么?",
"options": [
"整个编码器",
"在冻结的编码器特征之上的单个线性分类器;这把特征质量与微调动态隔离开来",
"一个完整的 MLP 分类头",
"位置嵌入"
],
"correct": 1,
"explanation": "线性探针冻结编码器,并在一个带标签的下游数据集上拟合 Linear(features -> num_classes)。其准确率直接衡量特征空间的线性可分性——作为特征质量的代理。微调整个主干会增加非线性容量,通常能把准确率提升几个点,但会混入优化效应。SSL 论文中两个数字都会报告。"
},
{
"stage": "post",
"question": "为什么 MAE 采用非对称的编码器-解码器设计(在 25% 可见图块上用大编码器,在所有 token 上用小解码器)?",
"options": [
"内存限制",
"编码器从不处理遮蔽 token;一个小解码器只负责重建。这使编码器的 FLOPs 与可见图块成正比(全部输入的 1/4),让预训练比那些把所有 token 都过完整编码器的朴素设计快 3 倍",
"遮蔽 token 会扰乱自注意力",
"解码器需要自己的主干"
],
"correct": 1,
"explanation": "MAE 的关键效率优势:昂贵的编码器只看到可见图块,即输入的 25%。遮蔽 token 只出现在浅层解码器中。这使预训练比 BEiT(它把所有 token 都过编码器)快约 3 倍,且下游准确率相当或更好。"
}
]
}