ai-engineering-from-scratch-zh/phases/05-nlp-foundations-to-advanced/11-machine-translation/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
{
  "lesson": "11-machine-translation",
  "title": "机器翻译",
  "questions": [
    {
      "stage": "pre",
      "question": "BLEU 衡量的是什么？",
      "options": [
        "语言识别准确率",
        "假设译文与参考译文之间的 n-gram 精确率（通常 1-4），并带一个简短惩罚（brevity penalty）",
        "字符级 F 分数",
        "嵌入余弦相似度"
      ],
      "correct": 1,
      "explanation": "BLEU 是对参考译文的 1-4 gram 精确率的几何平均，再加上简短惩罚。"
    },
    {
      "stage": "pre",
      "question": "为什么用 sacrebleu 而不是自己手写 BLEU？",
      "options": [
        "它更准确",
        "它在 GPU 上运行",
        "它规范化了分词，使得分数在不同论文和不同运行之间可比",
        "它支持流式处理"
      ],
      "correct": 2,
      "explanation": "sacrebleu 固定了分词方式，消除了 BLEU 数字不可比的一个常见来源。"
    },
    {
      "stage": "check",
      "question": "NLLB 中哪个特定设置在解码时控制目标语言？",
      "options": [
        "length_penalty",
        "forced_bos_token_id 设为目标语言代码对应的 token id",
        "num_beams",
        "src_lang"
      ],
      "correct": 1,
      "explanation": "NLLB 通过 forced_bos_token_id 把第一个解码 token 强制为目标语言代码。"
    },
    {
      "stage": "check",
      "question": "在有标注数据的场景下，2026 年生产级 MT 质量评估的默认指标家族是哪个？",
      "options": [
        "仅 BLEU",
        "token 编辑距离",
        "在人类判断上训练的学习型指标，如 COMET（以及 BERTScore/BLEURT）",
        "延迟"
      ],
      "correct": 2,
      "explanation": "像 COMET 这样的学习型指标，比单独使用 BLEU/chrF 与人类判断的相关性更强。"
    },
    {
      "stage": "check",
      "question": "什么时候 chrF 往往比 BLEU 更具信息量？",
      "options": [
        "对于形态丰富的语言，字符级匹配能捕捉到 BLEU 漏掉的屈折变体",
        "使用 beam search 时",
        "在非常短的句子上",
        "只要存在参考译文"
      ],
      "correct": 0,
      "explanation": "字符 F 分数能捕捉词级 BLEU 计算不足的部分形态匹配。"
    },
    {
      "stage": "post",
      "question": "多语言 MT 中的偏离目标语言生成（off-target generation）是什么？",
      "options": [
        "丢掉命名实体的输出",
        "漏掉标点的输出",
        "模型解码成了错误的目标语言（例如请求法语时 NLLB 输出了西班牙语）",
        "太短的输出"
      ],
      "correct": 2,
      "explanation": "偏离目标语言生成在稀有语言对上很常见；翻译后做一次语言识别检查可以发现它。"
    },
    {
      "stage": "post",
      "question": "为什么在几千条高质量领域语言对上微调，常常胜过规模大得多的嘈杂网络数据？",
      "options": [
        "更大的数据会撑爆 GPU 内存",
        "更小的数据集训练更快",
        "网络数据使用起来不合法",
        "质量和领域匹配胜过数据量；嘈杂的平行数据会引入漂移和幻觉"
      ],
      "correct": 3,
      "explanation": "干净的、领域对齐的语言对是生产中最大的杠杆；嘈杂数据会降低适配效果。"
    },
    {
      "stage": "post",
      "question": "在 2026 年，什么情况下 LLM（例如 GPT-4）可能胜过专用 MT 模型？",
      "options": [
        "最高吞吐量的批量翻译",
        "延迟敏感的浏览器翻译",
        "习语内容、长上下文、通过 prompt 做风格适配，或需要语气控制的内容",
        "拥有数百万平行句子的小语种语言对"
      ],
      "correct": 2,
      "explanation": "LLM 在习语、长上下文或风格可控的翻译上占优；专用 MT 在吞吐量和延迟上占优。"
    }
  ]
}