ai-engineering-from-scratch-zh/phases/05-nlp-foundations-to-advanced/16-text-generation-pre-transformer/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
{
  "lesson": "16-text-generation-pre-transformer",
  "title": "Transformer 之前的文本生成 — N-gram 语言模型",
  "questions": [
    {
      "stage": "pre",
      "question": "n-gram 语言模型估计的是什么？",
      "options": [
        "词之间的编辑距离",
        "P(label | document)",
        "文档嵌入",
        "由计数统计得到的 P(next word | previous n-1 words)"
      ],
      "correct": 3,
      "explanation": "n-gram LM 通过计数出现次数来建模 P(w | last n-1 words)。"
    },
    {
      "stage": "pre",
      "question": "平滑（smoothing）在 n-gram 模型中解决什么问题？",
      "options": [
        "数值精度",
        "内存占用",
        "对训练中未见过的 n-gram 赋予零概率，从而把句子似然坍缩为零",
        "分词不匹配"
      ],
      "correct": 2,
      "explanation": "平滑重新分配概率质量，使未见过的 n-gram 得到非零概率。"
    },
    {
      "stage": "check",
      "question": "什么洞见让 Kneser-Ney 平滑比朴素的绝对折扣更好？",
      "options": [
        "它用延续概率（一个词出现在多少个不同上下文中）而非原始频率来估计低阶分布",
        "它使用 TF-IDF",
        "它使用更大的 n",
        "它使用梯度下降"
      ],
      "correct": 0,
      "explanation": "延续概率奖励上下文多样性，而不仅仅是原始计数。"
    },
    {
      "stage": "check",
      "question": "困惑度（perplexity）衡量什么？",
      "options": [
        "留出测试集上每个 token 平均负对数似然的 exp；越低越好",
        "不同 n-gram 的数量",
        "标签的交叉熵",
        "生成的吞吐量"
      ],
      "correct": 0,
      "explanation": "困惑度 = exp(- mean log P)；越低表示模型对测试文本越不感到意外。"
    },
    {
      "stage": "check",
      "question": "为什么在比较困惑度数字时，训练集和测试集必须使用完全相同的分词？",
      "options": [
        "梯度下降所要求",
        "为了避免 OOV",
        "困惑度取决于分词方案；不匹配的 tokenizer 会产生不可比的分数",
        "为了控制 batch size"
      ],
      "correct": 2,
      "explanation": "不同的分词会改变 token 数量和似然，使困惑度值不可比。"
    },
    {
      "stage": "post",
      "question": "为什么 trigram-LM 生成的句子局部通顺却整体不连贯？",
      "options": [
        "它们丢掉了标点",
        "beam search 失败",
        "局部 trigram 上下文引导每个下一个词，但模型在 n-1 个 token 之外没有长程记忆",
        "它们使用拉普拉斯平滑"
      ],
      "correct": 2,
      "explanation": "仅以最后 n-1 个 token 为条件，使得长程连贯只是偶然出现。"
    },
    {
      "stage": "post",
      "question": "在 2026 年，n-gram 模型仍在哪类生产中部署？",
      "options": [
        "多语言翻译",
        "开放域聊天机器人",
        "延迟敏感的路径，如语音识别重打分和设备端自动补全（通过 KenLM 等库）",
        "摘要"
      ],
      "correct": 2,
      "explanation": "KenLM 风格的 n-gram 模型仍作为快速的设备端或重打分组件服役。"
    },
    {
      "stage": "post",
      "question": "为什么在宣称一个神经 LM “好”之前，仍建议先计算一个 n-gram 基线？",
      "options": [
        "它加速训练",
        "ROUGE 所要求",
        "它消除 OOV",
        "如果一个 transformer LM 在相同分词下没有大幅领先于一个调好的 Kneser-Ney 基线，那训练流水线就有问题"
      ],
      "correct": 3,
      "explanation": "KN 基线意外地强；神经 LM 应大幅领先，否则就是有 bug。"
    }
  ]
}