-
Notifications
You must be signed in to change notification settings - Fork 36
Expand file tree
/
Copy pathquiz.json
More file actions
78 lines (78 loc) · 3.22 KB
/
Copy pathquiz.json
File metadata and controls
78 lines (78 loc) · 3.22 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
"lesson": "60-projection-layer-modality-align",
"title": "顶点课 60 —— 用于 modality 对齐的 projection 层",
"questions": [
{
"stage": "pre",
"question": "为什么视觉编码器产出的 token,文本 decoder 没法直接消费?",
"options": [
"它们是不同的文件格式",
"图像 token 活在编码器视觉预训练时学到的一组基里,跟 decoder 的词向量没有任何对应关系",
"图像 token 被加密了",
"图像 token 太短"
],
"correct": 1,
"explanation": "两个编码器各自学出独立的基,需要一个桥接模块把它们对齐到共享空间。"
},
{
"stage": "pre",
"question": "为什么实践中两层 MLP 就足以做 modality 对齐?",
"options": [
"PyTorch 要求必须两层",
"在两个线性 projection 之间夹一个非线性拐点(GELU),经验上就足以把 CLIP 风格的特征和文本 embedding 对齐",
"单层 projection 是被禁止的",
"更深的 projection 是不允许的"
],
"correct": 1,
"explanation": "LLaVA 及其后续工作都用这个两层 MLP,因为非线性能修正单个线性层搞不定的曲率失配。"
},
{
"stage": "check",
"question": "为什么在这个对齐阶段要冻结视觉编码器?",
"options": [
"冻结意味着挂钟时间更短",
"8600 万参数的编码器没法在一个小型 mock 语料上重训;单独 130 万参数的 projection 才轻到能在几分钟内对齐",
"PyTorch 不支持训练编码器",
"编码器是空的"
],
"correct": 1,
"explanation": "冻结编码器和文本词表,让 projection 成为唯一在学的东西,这正是所有基于 adapter 的 VLM 的运作形态。"
},
{
"stage": "check",
"question": "当两个向量方向相反时,cosine_alignment_loss(image_emb, text_emb) 返回什么?",
"options": [
"0.0",
"2.0",
"1.0",
"无穷大"
],
"correct": 1,
"explanation": "loss 是 1 - cos(夹角)。反平行向量的 cos = -1,所以 loss 是 1 - (-1) = 2.0。"
},
{
"stage": "check",
"question": "为什么要用 CLS pooling,从 197 个 token 里产出单个图像级向量?",
"options": [
"PyTorch 会自动把 token 求和",
"每个样本的 caption 是一个向量,所以图像侧也需要一个向量;CLS token 正是编码器内置的图像摘要",
"它能省磁盘空间",
"patch token 没用上"
],
"correct": 1,
"explanation": "对齐是一个图像向量对一个 caption 向量;CLS pooling 不加任何额外参数就能产出那个图像向量。"
},
{
"stage": "post",
"question": "哪个生产系统跟第 60 课的模式最直接对应?",
"options": [
"PaLM",
"LLaVA 1.5:冻结视觉编码器、冻结 LLM,只训一个两层 MLP projection",
"AlphaFold",
"Stable Diffusion"
],
"correct": 1,
"explanation": "LLaVA 第一阶段训练就是这样:冻结的编码器和 LM,加一个两层 MLP 桥接作为唯一可训练的部分。"
}
]
}