-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
64 lines (64 loc) · 4.4 KB
/
Copy pathquiz.json
File metadata and controls
64 lines (64 loc) · 4.4 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
"questions": [
{
"stage": "pre",
"question": "CLIP 的对比损失是对称的(图到文 + 文到图)。为什么要两个方向?",
"options": [
"数值稳定性",
"你希望两种查询在推理时都能用:文到图检索和图到文检索。只训练一个方向会使另一方向的准确率显著下降",
"因为损失必须总和为零",
"PyTorch 要求对称"
],
"correct": 1,
"explanation": "嵌入空间需要在模态之间对称,因为下游任务会在两个方向上查询。零样本分类是文到图(在给定文本提示的情况下分类图像)。检索可以朝任一方向。只用 i2t 或只用 t2i 训练会让另一方向变弱。"
},
{
"stage": "pre",
"question": "用 CLIP 做零样本分类的原理是……?",
"options": [
"运行一个在 ImageNet 上训练的分类头",
"为每个候选类别编码像 'a photo of a dog' 这样的提示,编码测试图像,然后对图像嵌入与所有类别文本嵌入之间的余弦相似度取 argmax",
"在该类别上微调图像编码器",
"搜索一个带标签样本的数据库"
],
"correct": 1,
"explanation": "零样本意味着没有针对任务的训练:模型的表示已经让你能把图像与任意文本描述进行比较。为每个类别写一个提示,编码所有提示和测试图像,做余弦相似度,取 argmax。唯一的“技巧”是提示工程——为每个类别使用多个模板并对其嵌入取平均,能在 ImageNet 上获得 1-3 个点的 top-1 提升。"
},
{
"stage": "post",
"question": "SigLIP 用逐对的 sigmoid 损失取代了 CLIP 的 softmax。这带来什么好处?",
"options": [
"更快的 GPU 内核",
"sigmoid 损失是逐对的,因此它不依赖批作为归一化的分母。在 CLIP 的 softmax 损失因负样本不足而受困的较小批大小下,SigLIP 也能训练得很好",
"更低的内存占用",
"仅在 COCO 上准确率更好"
],
"correct": 1,
"explanation": "CLIP 的对称交叉熵是对整个批的 softmax,因此有效负样本 = 批大小 - 1。小批会让它缺乏负样本。SigLIP 是逐对的:每个 (图像, 标题) 对都得到一个二元判断(匹配与否)。没有批级归一化,所以 SigLIP 在批 128 下就能工作,而 CLIP 需要 8192。在同等规模下 SigLIP 达到或超过 CLIP。"
},
{
"stage": "post",
"question": "一位从业者报告用 CLIP ViT-B/32 在 CIFAR-10 上的零样本 top-1 为 88%,而同一模型每类用 80 个提示模板时为 90%。为什么模板平均会有帮助?",
"options": [
"它使数据集翻倍",
"不同的模板激活了文本编码器所学分布的不同方面;取平均会在该类别合理自然语言描述的流形上平滑类别嵌入,产生一个更鲁棒的质心",
"它减少了 logit_scale 的方差",
"80 是 CLIP 的魔数"
],
"correct": 1,
"explanation": "每个模板都是一个不同的自然语言线索。'a photo of a dog' 强调一个方面;'a blurry photo of a dog' 强调另一个;'a sketch of a dog' 又是一个。对文本嵌入取平均给出对“狗”这一概念更平滑的表示,对单个提示的特异性不那么敏感。OpenAI 的 CLIP 论文发布了 80 个模板,能把 ImageNet 零样本提升约 2 个点。"
},
{
"stage": "post",
"question": "为什么现代 VLM(LLaVA、Qwen-VL、InternVL)使用 CLIP 家族的视觉编码器,而非监督的 ImageNet ResNet?",
"options": [
"CLIP 编码器更快",
"CLIP 特征与自然语言对齐,因此 LLM 用更少的适配就能对它们进行推理;监督的 ImageNet 特征从未针对标题训练,需要很重的投影层才能桥接到文本",
"ResNet 看不到颜色",
"这是一项许可要求"
],
"correct": 1,
"explanation": "VLM 把一个视觉编码器接到一个语言模型上,并训练一个小投影。CLIP 风格的编码器是针对文本训练的,所以它们的输出已经位于一个 LLM 用几层线性适配就能消化的空间里。监督的 ImageNet 编码器对自然语言结构毫无概念,需要大得多的桥接 MLP 才能与 LLM 协作。这就是为什么每个 SOTA VLM 都使用 CLIP 家族的视觉塔。"
}
]
}