-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
37 lines (37 loc) · 2.81 KB
/
Copy pathquiz.json
File metadata and controls
37 lines (37 loc) · 2.81 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
{
"question": "为什么不能简单地把所有预训练数据都加载到内存里?",
"options": ["Python 不支持大数组", "预训练语料有数 TB 大小,远超可用内存,因此需要流式(streaming)流水线", "把数据加载到内存里更慢", "内存只用于存放模型权重"],
"correct": 1,
"explanation": "LLM 预训练数据通常有 1-15 TB 的文本。即使有 256GB 内存,也装不下完整数据集。流式流水线即时处理数据,只加载当前批次所需的内容。",
"stage": "pre"
},
{
"question": "为什么数据去重对预训练很重要?",
"options": ["它节省磁盘空间", "重复的文档会让模型逐字记住特定文本,并把训练算力浪费在重复内容上", "它加快分词速度", "它减小词表大小"],
"correct": 1,
"explanation": "近似重复的内容(样板文字、爬取到的重复内容)会让模型倾向于记忆而非泛化。去重减少了训练算力的浪费,并通过确保多样化的训练信号来提升模型质量。",
"stage": "pre"
},
{
"question": "把变长文档处理成定长训练序列的目的是什么?",
"options": ["让文本更易读", "GPU 训练需要统一的张量形状,因此文档必须被打包或填充成定长序列", "定长序列更准确", "它减少了 token 总数"],
"correct": 1,
"explanation": "GPU 处理形状相同的张量批次。变长文档必须被切分成定长序列(例如 2048 或 4096 个 token),并在文档边界处使用恰当的 attention mask。",
"stage": "post"
},
{
"question": "如果数据流水线比 GPU 训练速度更慢,会发生什么?",
"options": ["训练会自动减速以匹配", "GPU 会空闲等待批次,浪费昂贵的算力时间", "模型会在同一批次上反复训练", "什么都不会发生——流水线是异步运行的"],
"correct": 1,
"explanation": "如果 dataloader 无法足够快地提供批次,GPU 就会在每步之间停顿。在每小时成本 30 美元以上的 A100 集群上,流水线瓶颈会直接浪费金钱。对流水线吞吐量做性能分析至关重要。",
"stage": "post"
},
{
"question": "为什么数据质量过滤(语言检测、内容过滤)要在分词之前进行?",
"options": ["tokenizer 无法处理低质量文本", "低质量数据(垃圾信息、样板文字、有害内容)会按其在训练数据中所占比例成比例地损害模型能力", "分词之后再过滤是不可能的", "它减少分词时间"],
"correct": 1,
"explanation": "模型从它所见的任何数据中学习。如果训练数据有 10% 是垃圾信息或低质量内容,模型就会把 10% 的能力分配给重现这些模式。尽早过滤能确保只有高质量信号到达模型。",
"stage": "post"
}
]