ai-engineering-from-scratch-zh/phases/19-capstone-projects/60-projection-layer-modality-align/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "60-projection-layer-modality-align",
  "title": "顶点课 60 —— 用于 modality 对齐的 projection 层",
  "questions": [
    {
      "stage": "pre",
      "question": "为什么视觉编码器产出的 token，文本 decoder 没法直接消费？",
      "options": [
        "它们是不同的文件格式",
        "图像 token 活在编码器视觉预训练时学到的一组基里，跟 decoder 的词向量没有任何对应关系",
        "图像 token 被加密了",
        "图像 token 太短"
      ],
      "correct": 1,
      "explanation": "两个编码器各自学出独立的基，需要一个桥接模块把它们对齐到共享空间。"
    },
    {
      "stage": "pre",
      "question": "为什么实践中两层 MLP 就足以做 modality 对齐？",
      "options": [
        "PyTorch 要求必须两层",
        "在两个线性 projection 之间夹一个非线性拐点（GELU），经验上就足以把 CLIP 风格的特征和文本 embedding 对齐",
        "单层 projection 是被禁止的",
        "更深的 projection 是不允许的"
      ],
      "correct": 1,
      "explanation": "LLaVA 及其后续工作都用这个两层 MLP，因为非线性能修正单个线性层搞不定的曲率失配。"
    },
    {
      "stage": "check",
      "question": "为什么在这个对齐阶段要冻结视觉编码器？",
      "options": [
        "冻结意味着挂钟时间更短",
        "8600 万参数的编码器没法在一个小型 mock 语料上重训；单独 130 万参数的 projection 才轻到能在几分钟内对齐",
        "PyTorch 不支持训练编码器",
        "编码器是空的"
      ],
      "correct": 1,
      "explanation": "冻结编码器和文本词表，让 projection 成为唯一在学的东西，这正是所有基于 adapter 的 VLM 的运作形态。"
    },
    {
      "stage": "check",
      "question": "当两个向量方向相反时，cosine_alignment_loss(image_emb, text_emb) 返回什么？",
      "options": [
        "0.0",
        "2.0",
        "1.0",
        "无穷大"
      ],
      "correct": 1,
      "explanation": "loss 是 1 - cos(夹角)。反平行向量的 cos = -1，所以 loss 是 1 - (-1) = 2.0。"
    },
    {
      "stage": "check",
      "question": "为什么要用 CLS pooling，从 197 个 token 里产出单个图像级向量？",
      "options": [
        "PyTorch 会自动把 token 求和",
        "每个样本的 caption 是一个向量，所以图像侧也需要一个向量；CLS token 正是编码器内置的图像摘要",
        "它能省磁盘空间",
        "patch token 没用上"
      ],
      "correct": 1,
      "explanation": "对齐是一个图像向量对一个 caption 向量；CLS pooling 不加任何额外参数就能产出那个图像向量。"
    },
    {
      "stage": "post",
      "question": "哪个生产系统跟第 60 课的模式最直接对应？",
      "options": [
        "PaLM",
        "LLaVA 1.5：冻结视觉编码器、冻结 LLM，只训一个两层 MLP projection",
        "AlphaFold",
        "Stable Diffusion"
      ],
      "correct": 1,
      "explanation": "LLaVA 第一阶段训练就是这样：冻结的编码器和 LM，加一个两层 MLP 桥接作为唯一可训练的部分。"
    }
  ]
}