ai-engineering-from-scratch-zh/phases/05-nlp-foundations-to-advanced/18-multilingual-nlp/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
{
  "lesson": "18-multilingual-nlp",
  "title": "多语言 NLP",
  "questions": [
    {
      "stage": "pre",
      "question": "零样本跨语言迁移（zero-shot cross-lingual transfer）是什么意思？",
      "options": [
        "在一种源语言上微调一个多语言模型，并在没有目标语言标签的情况下在另一种语言上评估",
        "不用翻译模型进行翻译",
        "用零次合并进行分词",
        "用零个样本进行训练"
      ],
      "correct": 0,
      "explanation": "零样本迁移：在源语言上训练，在目标语言上运行，无需目标语言监督。"
    },
    {
      "stage": "pre",
      "question": "哪个模型家族作为标准的 100 语言跨语言基线发布？",
      "options": [
        "GloVe",
        "GPT-2",
        "XLM-R（例如 XLM-RoBERTa-base，270M）",
        "DistilBERT"
      ],
      "correct": 2,
      "explanation": "XLM-R 是用于跨语言分类的规范 100 语言预训练基线。"
    },
    {
      "stage": "check",
      "question": "为什么以英语为源并不总是对非英语目标语言给出最佳迁移效果？",
      "options": [
        "英语数据太少",
        "语言相似性（类型学、文字、形态）预示迁移质量；一个更接近的高资源源语言可能胜过英语",
        "英语使用 BPE",
        "英语太短"
      ],
      "correct": 1,
      "explanation": "类型学上相关的源语言（例如对印度语系目标用印地语）作为微调源往往胜过英语。"
    },
    {
      "stage": "check",
      "question": "低资源语言的“繁殖率税”（fertility tax）是什么？",
      "options": [
        "BPE 拒绝训练",
        "低资源文本每个词被分成比英语更多的子词，消耗上下文窗口、延迟和容量",
        "较小的模型训练更慢",
        "tokenizer 无法处理 Unicode"
      ],
      "correct": 1,
      "explanation": "长尾语言以高得多的繁殖率分词，吞噬上下文和训练效率。"
    },
    {
      "stage": "check",
      "question": "为什么需要逐语言评估，而非聚合准确率？",
      "options": [
        "聚合忽略了分词",
        "聚合数字掩盖了长尾语言，在这些语言上多语言模型可能远比其均值所暗示的更差",
        "聚合只对分类有效",
        "聚合跑得更快"
      ],
      "correct": 1,
      "explanation": "聚合准确率掩盖了低资源语言上的糟糕表现；逐语言分数能暴露它。"
    },
    {
      "stage": "post",
      "question": "用少样本数据适配多语言模型时，为什么微调学习率至关重要？",
      "options": [
        "更低的学习率浪费 GPU",
        "tokenizer 所要求",
        "它改变了词汇表",
        "过高的学习率会破坏多语言对齐，实际上把模型退化为只懂英语"
      ],
      "correct": 3,
      "explanation": "过大的学习率会使共享表示漂移；保守的学习率（约 2e-5）能保留跨语言结构。"
    },
    {
      "stage": "post",
      "question": "哪种缓解措施直接针对长尾文字的 tokenizer 繁殖率？",
      "options": [
        "跳过停用词",
        "降低 batch size",
        "使用字节回退（SentencePiece byte_fallback=True）或一个文字覆盖更广的 tokenizer（例如 XLM-V）",
        "更多训练 epoch"
      ],
      "correct": 2,
      "explanation": "字节回退和更广词汇的 tokenizer 能降低低资源文字的繁殖率和 OOV。"
    },
    {
      "stage": "post",
      "question": "什么时候值得尝试从零训练一个单语模型，而不是用多语言模型？",
      "options": [
        "对英语总是如此",
        "当目标语言有足够数据训练出一个胜过多语言基线的单语模型时；在假设前先测试",
        "仅对翻译",
        "只要 tokenizer 是 BPE"
      ],
      "correct": 1,
      "explanation": "对高资源目标语言，单语训练有时胜过多语言；由实证比较来决定。"
    }
  ]
}