ai-engineering-from-scratch-zh/phases/04-computer-vision/18-open-vocab-clip/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "CLIP 的对比损失是对称的（图到文 + 文到图）。为什么要两个方向？",
      "options": [
        "数值稳定性",
        "你希望两种查询在推理时都能用：文到图检索和图到文检索。只训练一个方向会使另一方向的准确率显著下降",
        "因为损失必须总和为零",
        "PyTorch 要求对称"
      ],
      "correct": 1,
      "explanation": "嵌入空间需要在模态之间对称，因为下游任务会在两个方向上查询。零样本分类是文到图（在给定文本提示的情况下分类图像）。检索可以朝任一方向。只用 i2t 或只用 t2i 训练会让另一方向变弱。"
    },
    {
      "stage": "pre",
      "question": "用 CLIP 做零样本分类的原理是……？",
      "options": [
        "运行一个在 ImageNet 上训练的分类头",
        "为每个候选类别编码像 'a photo of a dog' 这样的提示，编码测试图像，然后对图像嵌入与所有类别文本嵌入之间的余弦相似度取 argmax",
        "在该类别上微调图像编码器",
        "搜索一个带标签样本的数据库"
      ],
      "correct": 1,
      "explanation": "零样本意味着没有针对任务的训练：模型的表示已经让你能把图像与任意文本描述进行比较。为每个类别写一个提示，编码所有提示和测试图像，做余弦相似度，取 argmax。唯一的“技巧”是提示工程——为每个类别使用多个模板并对其嵌入取平均，能在 ImageNet 上获得 1-3 个点的 top-1 提升。"
    },
    {
      "stage": "post",
      "question": "SigLIP 用逐对的 sigmoid 损失取代了 CLIP 的 softmax。这带来什么好处？",
      "options": [
        "更快的 GPU 内核",
        "sigmoid 损失是逐对的，因此它不依赖批作为归一化的分母。在 CLIP 的 softmax 损失因负样本不足而受困的较小批大小下，SigLIP 也能训练得很好",
        "更低的内存占用",
        "仅在 COCO 上准确率更好"
      ],
      "correct": 1,
      "explanation": "CLIP 的对称交叉熵是对整个批的 softmax，因此有效负样本 = 批大小 - 1。小批会让它缺乏负样本。SigLIP 是逐对的：每个 (图像, 标题) 对都得到一个二元判断（匹配与否）。没有批级归一化，所以 SigLIP 在批 128 下就能工作，而 CLIP 需要 8192。在同等规模下 SigLIP 达到或超过 CLIP。"
    },
    {
      "stage": "post",
      "question": "一位从业者报告用 CLIP ViT-B/32 在 CIFAR-10 上的零样本 top-1 为 88%，而同一模型每类用 80 个提示模板时为 90%。为什么模板平均会有帮助？",
      "options": [
        "它使数据集翻倍",
        "不同的模板激活了文本编码器所学分布的不同方面；取平均会在该类别合理自然语言描述的流形上平滑类别嵌入，产生一个更鲁棒的质心",
        "它减少了 logit_scale 的方差",
        "80 是 CLIP 的魔数"
      ],
      "correct": 1,
      "explanation": "每个模板都是一个不同的自然语言线索。'a photo of a dog' 强调一个方面；'a blurry photo of a dog' 强调另一个；'a sketch of a dog' 又是一个。对文本嵌入取平均给出对“狗”这一概念更平滑的表示，对单个提示的特异性不那么敏感。OpenAI 的 CLIP 论文发布了 80 个模板，能把 ImageNet 零样本提升约 2 个点。"
    },
    {
      "stage": "post",
      "question": "为什么现代 VLM（LLaVA、Qwen-VL、InternVL）使用 CLIP 家族的视觉编码器，而非监督的 ImageNet ResNet？",
      "options": [
        "CLIP 编码器更快",
        "CLIP 特征与自然语言对齐，因此 LLM 用更少的适配就能对它们进行推理；监督的 ImageNet 特征从未针对标题训练，需要很重的投影层才能桥接到文本",
        "ResNet 看不到颜色",
        "这是一项许可要求"
      ],
      "correct": 1,
      "explanation": "VLM 把一个视觉编码器接到一个语言模型上，并训练一个小投影。CLIP 风格的编码器是针对文本训练的，所以它们的输出已经位于一个 LLM 用几层线性适配就能消化的空间里。监督的 ImageNet 编码器对自然语言结构毫无概念，需要大得多的桥接 MLP 才能与 LLM 协作。这就是为什么每个 SOTA VLM 都使用 CLIP 家族的视觉塔。"
    }
  ]
}