-
Notifications
You must be signed in to change notification settings - Fork 36
Expand file tree
/
Copy pathquiz.json
More file actions
78 lines (78 loc) · 3.21 KB
/
Copy pathquiz.json
File metadata and controls
78 lines (78 loc) · 3.21 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
"lesson": "63-multimodal-eval",
"title": "顶点课 63 —— 多模态评测",
"questions": [
{
"stage": "pre",
"question": "为什么单看训练 loss 不足以衡量一个多模态模型的质量?",
"options": [
"loss 很难算",
"训练 loss 衡量的是在训练分布上的拟合;评测面(检索、VQA、captioning)衡量的是模型能否泛化到留出任务上",
"loss 值是随机的",
"loss 是个字符串"
],
"correct": 1,
"explanation": "最小化 loss 是必要的,但不充分。在三个任务面上的留出指标,才衡量模型到底能做什么。"
},
{
"stage": "pre",
"question": "在一个 100 样本的检索评测里,R@5 衡量的是什么?",
"options": [
"第五个 caption 总是对的",
"在 100 个候选里,正确匹配落进检索 top 5 的 query 所占的比例",
"5% 的准确率",
"每秒 5 个 query"
],
"correct": 1,
"explanation": "R@K = 目标落在排序后 top K 候选里的 query 所占比例。越高越好。"
},
{
"stage": "check",
"question": "为什么 BLEU-4 对 1 到 4-gram 的 precision 取几何平均,而不是算术平均?",
"options": [
"算术平均更慢",
"只要任何一个 n-gram precision 为零,几何平均就是零,这正是 BLEU 想要的严格匹配特性;平滑负责处理这个零的情况",
"几何平均数值更大",
"PyTorch 只支持几何平均"
],
"correct": 1,
"explanation": "几何平均强制所有 n-gram 阶数都得有贡献;4-gram precision 为零会在平滑之前直接把分数压垮。"
},
{
"stage": "check",
"question": "BLEU-4 里的简短惩罚(brevity penalty)防的是什么?",
"options": [
"长 caption 被惩罚",
"短 caption 靠只输出安全的高频 token 来刷高 precision;当生成长度 < 参考长度时 BP < 1",
"内存泄漏",
"tokenizer 错误"
],
"correct": 1,
"explanation": "没有 BP 的话,一个只匹配一个参考词的单词 caption 就能得 1.0。BP 会把过短生成的分数压低。"
},
{
"stage": "check",
"question": "为什么对同一个生成结果,多参考 BLEU 通常比单参考 BLEU 得分更高?",
"options": [
"数学不一样",
"生成里的每个 n-gram 都能匹配任意一个参考,所以参考越多,clipped count 越高",
"单参考是坏的",
"参考会多占内存"
],
"correct": 1,
"explanation": "更多参考给了 n-gram 更多被匹配的机会;clipped count 增长,precision 随之上升。"
},
{
"stage": "post",
"question": "哪个评测面不用任何模型 embedding,只做 id 级别的匹配?",
"options": [
"检索",
"VQA 精确匹配:预测的答案 id 直接和参考 id 比较,没有 embedding 这一步",
"BLEU-4",
"余弦相似度"
],
"correct": 1,
"explanation": "VQA 精确匹配是模型吐出答案 token 之后的一次整数比较,不涉及任何 embedding 或相似度计算。"
}
]
}