ai-engineering-from-scratch-zh/phases/11-llm-engineering/08-fine-tuning-lora/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
  {
    "question": "LoRA（低秩适配，Low-Rank Adaptation）背后的核心洞见是什么？",
    "options": ["大多数权重无关紧要", "微调时的权重更新具有低内在秩，因此可以用两个小矩阵来近似，而不必更新整个权重矩阵", "微调只需要最后一层", "更小的模型总是更好"],
    "correct": 1,
    "explanation": "Aghajanyan 等人证明微调的更新位于一个低维子空间中。LoRA 利用这一点，把更新表示为 W + BA，其中 B（d x r）和 A（r x d）的秩 r 很小，通常 8-64。",
    "stage": "pre"
  },
  {
    "question": "相比对一个 8B 模型做全量微调，LoRA 能节省多少内存？",
    "options": ["不节省", "通过在保持基座权重冻结的同时训练不到 1% 的参数，从约 56GB 降到约 6GB", "减少 50%", "只节省磁盘空间"],
    "correct": 1,
    "explanation": "全量微调需要为全部 8B 参数保存梯度和优化器状态（约 56GB）。LoRA 冻结基座权重，只训练适配器矩阵（秩 16 时约 8000 万参数），总共只需约 6GB。",
    "stage": "pre"
  },
  {
    "question": "什么是 QLoRA？",
    "options": ["量化版 LoRA：基座模型以 4 位精度加载，而 LoRA 适配器以 16 位训练，结合两种技术的内存节省", "更快版本的 LoRA", "应用于量化激活值的 LoRA", "一种不同的微调算法"],
    "correct": 0,
    "explanation": "QLoRA（Dettmers 等人）以 4 位（NF4 量化）加载冻结的基座模型，同时以 FP16/BF16 训练 LoRA 适配器。这使得在一张 6GB VRAM 的消费级 GPU 上微调 7B 模型成为可能。",
    "stage": "post"
  },
  {
    "question": "LoRA 中的「秩」参数（r）控制什么？",
    "options": ["训练轮数", "适配器的容量：秩越高能捕捉越复杂的适配，但使用更多参数和内存", "学习率", "要微调的层数"],
    "correct": 1,
    "explanation": "秩 r 决定适配器矩阵 A（r x d）和 B（d x r）的大小。秩 4 训练极少的参数（快、省）。秩 64 训练更多参数（表达力更强）。大多数任务在秩 8-32 下效果良好。",
    "stage": "post"
  },
  {
    "question": "当你把 LoRA 权重合并回基座模型时会发生什么？",
    "options": ["模型变大", "适配器矩阵被加到基座权重上（W_merged = W_base + B*A），产出一个没有推理开销的标准模型", "模型需要重新训练", "无法合并"],
    "correct": 1,
    "explanation": "由于 LoRA 是 W_base + B*A，你可以一次性计算 B*A 并永久加到 W_base 上。合并后的模型与原始模型有相同的架构和推理速度，没有适配器开销。",
    "stage": "post"
  }
]