-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
37 lines (37 loc) · 2.64 KB
/
Copy pathquiz.json
File metadata and controls
37 lines (37 loc) · 2.64 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
{
"question": "LoRA(低秩适配,Low-Rank Adaptation)背后的核心洞见是什么?",
"options": ["大多数权重无关紧要", "微调时的权重更新具有低内在秩,因此可以用两个小矩阵来近似,而不必更新整个权重矩阵", "微调只需要最后一层", "更小的模型总是更好"],
"correct": 1,
"explanation": "Aghajanyan 等人证明微调的更新位于一个低维子空间中。LoRA 利用这一点,把更新表示为 W + BA,其中 B(d x r)和 A(r x d)的秩 r 很小,通常 8-64。",
"stage": "pre"
},
{
"question": "相比对一个 8B 模型做全量微调,LoRA 能节省多少内存?",
"options": ["不节省", "通过在保持基座权重冻结的同时训练不到 1% 的参数,从约 56GB 降到约 6GB", "减少 50%", "只节省磁盘空间"],
"correct": 1,
"explanation": "全量微调需要为全部 8B 参数保存梯度和优化器状态(约 56GB)。LoRA 冻结基座权重,只训练适配器矩阵(秩 16 时约 8000 万参数),总共只需约 6GB。",
"stage": "pre"
},
{
"question": "什么是 QLoRA?",
"options": ["量化版 LoRA:基座模型以 4 位精度加载,而 LoRA 适配器以 16 位训练,结合两种技术的内存节省", "更快版本的 LoRA", "应用于量化激活值的 LoRA", "一种不同的微调算法"],
"correct": 0,
"explanation": "QLoRA(Dettmers 等人)以 4 位(NF4 量化)加载冻结的基座模型,同时以 FP16/BF16 训练 LoRA 适配器。这使得在一张 6GB VRAM 的消费级 GPU 上微调 7B 模型成为可能。",
"stage": "post"
},
{
"question": "LoRA 中的「秩」参数(r)控制什么?",
"options": ["训练轮数", "适配器的容量:秩越高能捕捉越复杂的适配,但使用更多参数和内存", "学习率", "要微调的层数"],
"correct": 1,
"explanation": "秩 r 决定适配器矩阵 A(r x d)和 B(d x r)的大小。秩 4 训练极少的参数(快、省)。秩 64 训练更多参数(表达力更强)。大多数任务在秩 8-32 下效果良好。",
"stage": "post"
},
{
"question": "当你把 LoRA 权重合并回基座模型时会发生什么?",
"options": ["模型变大", "适配器矩阵被加到基座权重上(W_merged = W_base + B*A),产出一个没有推理开销的标准模型", "模型需要重新训练", "无法合并"],
"correct": 1,
"explanation": "由于 LoRA 是 W_base + B*A,你可以一次性计算 B*A 并永久加到 W_base 上。合并后的模型与原始模型有相同的架构和推理速度,没有适配器开销。",
"stage": "post"
}
]