-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
102 lines (102 loc) · 3.99 KB
/
Copy pathquiz.json
File metadata and controls
102 lines (102 loc) · 3.99 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
{
"lesson": "18-multilingual-nlp",
"title": "多语言 NLP",
"questions": [
{
"stage": "pre",
"question": "零样本跨语言迁移(zero-shot cross-lingual transfer)是什么意思?",
"options": [
"在一种源语言上微调一个多语言模型,并在没有目标语言标签的情况下在另一种语言上评估",
"不用翻译模型进行翻译",
"用零次合并进行分词",
"用零个样本进行训练"
],
"correct": 0,
"explanation": "零样本迁移:在源语言上训练,在目标语言上运行,无需目标语言监督。"
},
{
"stage": "pre",
"question": "哪个模型家族作为标准的 100 语言跨语言基线发布?",
"options": [
"GloVe",
"GPT-2",
"XLM-R(例如 XLM-RoBERTa-base,270M)",
"DistilBERT"
],
"correct": 2,
"explanation": "XLM-R 是用于跨语言分类的规范 100 语言预训练基线。"
},
{
"stage": "check",
"question": "为什么以英语为源并不总是对非英语目标语言给出最佳迁移效果?",
"options": [
"英语数据太少",
"语言相似性(类型学、文字、形态)预示迁移质量;一个更接近的高资源源语言可能胜过英语",
"英语使用 BPE",
"英语太短"
],
"correct": 1,
"explanation": "类型学上相关的源语言(例如对印度语系目标用印地语)作为微调源往往胜过英语。"
},
{
"stage": "check",
"question": "低资源语言的“繁殖率税”(fertility tax)是什么?",
"options": [
"BPE 拒绝训练",
"低资源文本每个词被分成比英语更多的子词,消耗上下文窗口、延迟和容量",
"较小的模型训练更慢",
"tokenizer 无法处理 Unicode"
],
"correct": 1,
"explanation": "长尾语言以高得多的繁殖率分词,吞噬上下文和训练效率。"
},
{
"stage": "check",
"question": "为什么需要逐语言评估,而非聚合准确率?",
"options": [
"聚合忽略了分词",
"聚合数字掩盖了长尾语言,在这些语言上多语言模型可能远比其均值所暗示的更差",
"聚合只对分类有效",
"聚合跑得更快"
],
"correct": 1,
"explanation": "聚合准确率掩盖了低资源语言上的糟糕表现;逐语言分数能暴露它。"
},
{
"stage": "post",
"question": "用少样本数据适配多语言模型时,为什么微调学习率至关重要?",
"options": [
"更低的学习率浪费 GPU",
"tokenizer 所要求",
"它改变了词汇表",
"过高的学习率会破坏多语言对齐,实际上把模型退化为只懂英语"
],
"correct": 3,
"explanation": "过大的学习率会使共享表示漂移;保守的学习率(约 2e-5)能保留跨语言结构。"
},
{
"stage": "post",
"question": "哪种缓解措施直接针对长尾文字的 tokenizer 繁殖率?",
"options": [
"跳过停用词",
"降低 batch size",
"使用字节回退(SentencePiece byte_fallback=True)或一个文字覆盖更广的 tokenizer(例如 XLM-V)",
"更多训练 epoch"
],
"correct": 2,
"explanation": "字节回退和更广词汇的 tokenizer 能降低低资源文字的繁殖率和 OOV。"
},
{
"stage": "post",
"question": "什么时候值得尝试从零训练一个单语模型,而不是用多语言模型?",
"options": [
"对英语总是如此",
"当目标语言有足够数据训练出一个胜过多语言基线的单语模型时;在假设前先测试",
"仅对翻译",
"只要 tokenizer 是 BPE"
],
"correct": 1,
"explanation": "对高资源目标语言,单语训练有时胜过多语言;由实证比较来决定。"
}
]
}