-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
37 lines (37 loc) · 2.84 KB
/
Copy pathquiz.json
File metadata and controls
37 lines (37 loc) · 2.84 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
{
"question": "在 LLM 流水线中,tokenizer 的主要作用是什么?",
"options": ["从文本中移除停用词", "把文本转换成模型能处理的整数序列", "在不同语言之间翻译文本", "压缩文本以便存储"],
"correct": 1,
"explanation": "LLM 处理的是数字,而不是文本。tokenizer 把每个字符、单词和符号都转换成来自固定词表的整数 ID。这种转换并非中立的——它决定了模型如何「看见」语言。",
"stage": "pre"
},
{
"question": "BPE(字节对编码)是如何构建其词表的?",
"options": ["只把文本拆分成单个字符", "迭代地合并出现频率最高的相邻 token 对,直到达到目标词表大小", "对整个单词使用字典查找", "随机给子串分配 ID"],
"correct": 1,
"explanation": "BPE 从单个字节/字符开始,反复合并最常见的相邻对。'th' + 'e' 合并成 'the'。经过数千次合并后,常见单词成为单个 token,而罕见单词被拆成子词片段。",
"stage": "pre"
},
{
"question": "为什么词表大小会在 LLM 设计中造成权衡?",
"options": ["词表越大性能总是越好", "词表太小会产生长序列(计算量更大);太大则会把 embedding 参数浪费在罕见 token 上", "词表大小不影响模型性能", "词表越小总是越高效"],
"correct": 1,
"explanation": "小词表(例如字符级)意味着每个单词都是很多个 token,增加序列长度和计算量。大词表则把参数浪费在训练数据里很少出现的 token 上。大多数 LLM 使用 32K-100K 个 token。",
"stage": "post"
},
{
"question": "字节级回退(byte-level fallback)在分词中解决了什么问题?",
"options": ["它加快了分词速度", "它确保任何输入(emoji、罕见文字、二进制数据)都能被编码而不产生「未知」token", "它减小了词表大小", "它提高了模型准确率"],
"correct": 1,
"explanation": "有了字节级回退,tokenizer 可以对任何不在词表中的字符回退到原始字节值(共 256 种可能)。这保证了完整覆盖——任何输入都不会是「未知」。",
"stage": "post"
},
{
"question": "tokenizer 如何影响 LLM 在非英语语言上的表现?",
"options": ["tokenizer 对所有语言效果一样好", "在训练数据中代表性不足的语言会得到更差的 token 合并,导致每个单词需要更多 token,从而浪费上下文窗口", "非英语文本总是按字符分词", "分词不影响语言表现"],
"correct": 1,
"explanation": "BPE 的合并是从训练数据中学到的。如果日语文本只占语料的 5%,日语字符得到的合并就更少,每个单词需要比英语多 2-5 倍的 token。这实际上为非英语文本缩小了上下文窗口。",
"stage": "post"
}
]