ai-engineering-from-scratch-zh/phases/19-capstone-projects/63-multimodal-eval/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "63-multimodal-eval",
  "title": "顶点课 63 —— 多模态评测",
  "questions": [
    {
      "stage": "pre",
      "question": "为什么单看训练 loss 不足以衡量一个多模态模型的质量？",
      "options": [
        "loss 很难算",
        "训练 loss 衡量的是在训练分布上的拟合；评测面（检索、VQA、captioning）衡量的是模型能否泛化到留出任务上",
        "loss 值是随机的",
        "loss 是个字符串"
      ],
      "correct": 1,
      "explanation": "最小化 loss 是必要的，但不充分。在三个任务面上的留出指标，才衡量模型到底能做什么。"
    },
    {
      "stage": "pre",
      "question": "在一个 100 样本的检索评测里，R@5 衡量的是什么？",
      "options": [
        "第五个 caption 总是对的",
        "在 100 个候选里，正确匹配落进检索 top 5 的 query 所占的比例",
        "5% 的准确率",
        "每秒 5 个 query"
      ],
      "correct": 1,
      "explanation": "R@K = 目标落在排序后 top K 候选里的 query 所占比例。越高越好。"
    },
    {
      "stage": "check",
      "question": "为什么 BLEU-4 对 1 到 4-gram 的 precision 取几何平均，而不是算术平均？",
      "options": [
        "算术平均更慢",
        "只要任何一个 n-gram precision 为零，几何平均就是零，这正是 BLEU 想要的严格匹配特性；平滑负责处理这个零的情况",
        "几何平均数值更大",
        "PyTorch 只支持几何平均"
      ],
      "correct": 1,
      "explanation": "几何平均强制所有 n-gram 阶数都得有贡献；4-gram precision 为零会在平滑之前直接把分数压垮。"
    },
    {
      "stage": "check",
      "question": "BLEU-4 里的简短惩罚（brevity penalty）防的是什么？",
      "options": [
        "长 caption 被惩罚",
        "短 caption 靠只输出安全的高频 token 来刷高 precision；当生成长度 < 参考长度时 BP < 1",
        "内存泄漏",
        "tokenizer 错误"
      ],
      "correct": 1,
      "explanation": "没有 BP 的话，一个只匹配一个参考词的单词 caption 就能得 1.0。BP 会把过短生成的分数压低。"
    },
    {
      "stage": "check",
      "question": "为什么对同一个生成结果，多参考 BLEU 通常比单参考 BLEU 得分更高？",
      "options": [
        "数学不一样",
        "生成里的每个 n-gram 都能匹配任意一个参考，所以参考越多，clipped count 越高",
        "单参考是坏的",
        "参考会多占内存"
      ],
      "correct": 1,
      "explanation": "更多参考给了 n-gram 更多被匹配的机会；clipped count 增长，precision 随之上升。"
    },
    {
      "stage": "post",
      "question": "哪个评测面不用任何模型 embedding，只做 id 级别的匹配？",
      "options": [
        "检索",
        "VQA 精确匹配：预测的答案 id 直接和参考 id 比较，没有 embedding 这一步",
        "BLEU-4",
        "余弦相似度"
      ],
      "correct": 1,
      "explanation": "VQA 精确匹配是模型吐出答案 token 之后的一次整数比较，不涉及任何 embedding 或相似度计算。"
    }
  ]
}