ai-engineering-from-scratch-zh/phases/04-computer-vision/17-self-supervised-vision/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "为什么 SimCLR 需要 512-8192 的批大小，而监督的 ImageNet 训练用批 256 就行？",
      "options": [
        "SimCLR 更慢",
        "每个样本需要许多负样本才能产生有用的对比信号；批本身就是负样本池。小批会让 InfoNCE 损失缺乏负样本，导致训练坍缩或停滞",
        "批归一化要求这样",
        "对比损失要除以批大小"
      ],
      "correct": 1,
      "explanation": "InfoNCE 损失把正样本对与批中所有其他样本进行排序对比。批为 32 时每个正样本有 30 个负样本；批为 1024 时有 2046 个。负样本越多 = 对比信号越尖锐。MoCo 引入了一个由过去特征组成的动量队列，使有效负样本数量超越批大小；当 GPU 内存限制了批大小时，这是标准技巧。"
    },
    {
      "stage": "pre",
      "question": "是什么防止 DINO 坍缩为恒定输出？",
      "options": [
        "仅靠强增强",
        "中心化（从教师输出中减去每维的 EMA 均值）和锐化（较低的教师温度）的组合；中心化阻止某一维占主导，锐化阻止输出坍缩为均匀",
        "大批大小",
        "动量调度"
      ],
      "correct": 1,
      "explanation": "DINO 不使用显式负样本。没有中心化，某一个输出维度可能占主导，学生会学着总是预测它。没有锐化（较低的教师温度），教师的输出会变得近乎均匀，学生学着去匹配均匀，这同样是坍缩。两者合在一起使输出在各维度上保持多样、在每个样本上保持尖锐。"
    },
    {
      "stage": "post",
      "question": "MAE 遮蔽 75% 的图块。BERT 遮蔽 15% 的 token。为什么不同？",
      "options": [
        "75% 是随意定的",
        "图块的熵很低——相邻块高度相关——所以只遮蔽 15% 通过局部外推就能轻易解出。遮蔽 75% 迫使编码器学习全局语义特征以重建缺失的图块",
        "BERT 在设计上要求 15%",
        "文本 token 比图像图块更大"
      ],
      "correct": 1,
      "explanation": "遮蔽比例应当与模态的信息密度相匹配。文本：15% 就足够，因为每个 token 有许多合理的补全。图像：相邻像素几乎相互决定，所以低遮蔽比例无需真正的表示学习就能解出。MAE 的 75% 是经过校准、用来迫使语义理解的。"
    },
    {
      "stage": "post",
      "question": "在自监督预训练之后，“线性探针”评估只训练什么？",
      "options": [
        "整个编码器",
        "在冻结的编码器特征之上的单个线性分类器；这把特征质量与微调动态隔离开来",
        "一个完整的 MLP 分类头",
        "位置嵌入"
      ],
      "correct": 1,
      "explanation": "线性探针冻结编码器，并在一个带标签的下游数据集上拟合 Linear(features -> num_classes)。其准确率直接衡量特征空间的线性可分性——作为特征质量的代理。微调整个主干会增加非线性容量，通常能把准确率提升几个点，但会混入优化效应。SSL 论文中两个数字都会报告。"
    },
    {
      "stage": "post",
      "question": "为什么 MAE 采用非对称的编码器-解码器设计（在 25% 可见图块上用大编码器，在所有 token 上用小解码器）？",
      "options": [
        "内存限制",
        "编码器从不处理遮蔽 token；一个小解码器只负责重建。这使编码器的 FLOPs 与可见图块成正比（全部输入的 1/4），让预训练比那些把所有 token 都过完整编码器的朴素设计快 3 倍",
        "遮蔽 token 会扰乱自注意力",
        "解码器需要自己的主干"
      ],
      "correct": 1,
      "explanation": "MAE 的关键效率优势：昂贵的编码器只看到可见图块，即输入的 25%。遮蔽 token 只出现在浅层解码器中。这使预训练比 BEiT（它把所有 token 都过编码器）快约 3 倍，且下游准确率相当或更好。"
    }
  ]
}