ai-engineering-from-scratch-zh/phases/10-llms-from-scratch/01-tokenizers/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
  {
    "question": "在 LLM 流水线中，tokenizer 的主要作用是什么？",
    "options": ["从文本中移除停用词", "把文本转换成模型能处理的整数序列", "在不同语言之间翻译文本", "压缩文本以便存储"],
    "correct": 1,
    "explanation": "LLM 处理的是数字，而不是文本。tokenizer 把每个字符、单词和符号都转换成来自固定词表的整数 ID。这种转换并非中立的——它决定了模型如何「看见」语言。",
    "stage": "pre"
  },
  {
    "question": "BPE（字节对编码）是如何构建其词表的？",
    "options": ["只把文本拆分成单个字符", "迭代地合并出现频率最高的相邻 token 对，直到达到目标词表大小", "对整个单词使用字典查找", "随机给子串分配 ID"],
    "correct": 1,
    "explanation": "BPE 从单个字节/字符开始，反复合并最常见的相邻对。'th' + 'e' 合并成 'the'。经过数千次合并后，常见单词成为单个 token，而罕见单词被拆成子词片段。",
    "stage": "pre"
  },
  {
    "question": "为什么词表大小会在 LLM 设计中造成权衡？",
    "options": ["词表越大性能总是越好", "词表太小会产生长序列（计算量更大）；太大则会把 embedding 参数浪费在罕见 token 上", "词表大小不影响模型性能", "词表越小总是越高效"],
    "correct": 1,
    "explanation": "小词表（例如字符级）意味着每个单词都是很多个 token，增加序列长度和计算量。大词表则把参数浪费在训练数据里很少出现的 token 上。大多数 LLM 使用 32K-100K 个 token。",
    "stage": "post"
  },
  {
    "question": "字节级回退（byte-level fallback）在分词中解决了什么问题？",
    "options": ["它加快了分词速度", "它确保任何输入（emoji、罕见文字、二进制数据）都能被编码而不产生「未知」token", "它减小了词表大小", "它提高了模型准确率"],
    "correct": 1,
    "explanation": "有了字节级回退，tokenizer 可以对任何不在词表中的字符回退到原始字节值（共 256 种可能）。这保证了完整覆盖——任何输入都不会是「未知」。",
    "stage": "post"
  },
  {
    "question": "tokenizer 如何影响 LLM 在非英语语言上的表现？",
    "options": ["tokenizer 对所有语言效果一样好", "在训练数据中代表性不足的语言会得到更差的 token 合并，导致每个单词需要更多 token，从而浪费上下文窗口", "非英语文本总是按字符分词", "分词不影响语言表现"],
    "correct": 1,
    "explanation": "BPE 的合并是从训练数据中学到的。如果日语文本只占语料的 5%，日语字符得到的合并就更少，每个单词需要比英语多 2-5 倍的 token。这实际上为非英语文本缩小了上下文窗口。",
    "stage": "post"
  }
]