ai-engineering-from-scratch-zh/phases/10-llms-from-scratch/03-data-pipelines/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
  {
    "question": "为什么不能简单地把所有预训练数据都加载到内存里？",
    "options": ["Python 不支持大数组", "预训练语料有数 TB 大小，远超可用内存，因此需要流式（streaming）流水线", "把数据加载到内存里更慢", "内存只用于存放模型权重"],
    "correct": 1,
    "explanation": "LLM 预训练数据通常有 1-15 TB 的文本。即使有 256GB 内存，也装不下完整数据集。流式流水线即时处理数据，只加载当前批次所需的内容。",
    "stage": "pre"
  },
  {
    "question": "为什么数据去重对预训练很重要？",
    "options": ["它节省磁盘空间", "重复的文档会让模型逐字记住特定文本，并把训练算力浪费在重复内容上", "它加快分词速度", "它减小词表大小"],
    "correct": 1,
    "explanation": "近似重复的内容（样板文字、爬取到的重复内容）会让模型倾向于记忆而非泛化。去重减少了训练算力的浪费，并通过确保多样化的训练信号来提升模型质量。",
    "stage": "pre"
  },
  {
    "question": "把变长文档处理成定长训练序列的目的是什么？",
    "options": ["让文本更易读", "GPU 训练需要统一的张量形状，因此文档必须被打包或填充成定长序列", "定长序列更准确", "它减少了 token 总数"],
    "correct": 1,
    "explanation": "GPU 处理形状相同的张量批次。变长文档必须被切分成定长序列（例如 2048 或 4096 个 token），并在文档边界处使用恰当的 attention mask。",
    "stage": "post"
  },
  {
    "question": "如果数据流水线比 GPU 训练速度更慢，会发生什么？",
    "options": ["训练会自动减速以匹配", "GPU 会空闲等待批次，浪费昂贵的算力时间", "模型会在同一批次上反复训练", "什么都不会发生——流水线是异步运行的"],
    "correct": 1,
    "explanation": "如果 dataloader 无法足够快地提供批次，GPU 就会在每步之间停顿。在每小时成本 30 美元以上的 A100 集群上，流水线瓶颈会直接浪费金钱。对流水线吞吐量做性能分析至关重要。",
    "stage": "post"
  },
  {
    "question": "为什么数据质量过滤（语言检测、内容过滤）要在分词之前进行？",
    "options": ["tokenizer 无法处理低质量文本", "低质量数据（垃圾信息、样板文字、有害内容）会按其在训练数据中所占比例成比例地损害模型能力", "分词之后再过滤是不可能的", "它减少分词时间"],
    "correct": 1,
    "explanation": "模型从它所见的任何数据中学习。如果训练数据有 10% 是垃圾信息或低质量内容，模型就会把 10% 的能力分配给重现这些模式。尽早过滤能确保只有高质量信号到达模型。",
    "stage": "post"
  }
]