-
Notifications
You must be signed in to change notification settings - Fork 36
Expand file tree
/
Copy pathquiz.json
More file actions
64 lines (64 loc) · 4.18 KB
/
Copy pathquiz.json
File metadata and controls
64 lines (64 loc) · 4.18 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
"questions": [
{
"stage": "pre",
"question": "为什么 Stable Diffusion 在 4x64x64 的潜空间中运行其 DDPM,而不是直接在 3x512x512 的像素图像上运行?",
"options": [
"潜变量更容易可视化",
"在 16,384 个潜变量上而不是 786,432 个像素上训练和采样大约便宜 48 倍;一个预训练的 VAE 负责图像与潜变量之间的转换,扩散模型只需对结构化的潜变量流形建模",
"潜变量是 GPU 的原生输出",
"为了使推理具有确定性"
],
"correct": 1,
"explanation": "潜空间扩散是使消费级 GPU 文生图变得可行的那一项关键创新。VAE 在空间和通道上压缩了 48 倍信息。扩散模型可以把它全部的参数和计算预算用于对潜变量流形建模,而那正是用户在解码后看到的部分。"
},
{
"stage": "pre",
"question": "无分类器引导(CFG)在推理时做什么?",
"options": [
"运行两个独立的模型并取平均",
"使用一个被训练为同时预测有条件噪声 eps_cond 和无条件噪声 eps_uncond 的模型,然后以 eps = eps_uncond + w*(eps_cond - eps_uncond) 的方式组合,以放大对提示词的遵循",
"在测试时给模型加一个分类头",
"使用更大的调度器"
],
"correct": 1,
"explanation": "CFG 训练单个模型,并在 10% 的时间里丢弃条件,使同一套权重既能产生有条件预测又能产生无条件预测。在推理时,上面的公式放大了条件方向。引导尺度 w 是调节提示词遵循度与多样性之间平衡的标准旋钮;SD 默认为 7.5。"
},
{
"stage": "post",
"question": "你把 SD 的默认调度器换成 DPM-Solver++ 2M Karras,并把 num_inference_steps 从 50 减到 20。预期结果是什么?",
"options": [
"质量更差、运行时间更长",
"在大约一半的时间内达到相当的质量;DPM-Solver++ 是一个二阶 ODE 积分器,在相同采样质量下比 DDIM 用更少的步数收敛",
"数值不稳定",
"你还必须重新训练模型"
],
"correct": 1,
"explanation": "调度器与模型权重是解耦的。DPM-Solver++ 是一个高阶求解器,约 20 步就能达到 DDIM-50 的质量。无需任何重新训练,它是 2026 年的生产默认选择。降到 8 步以下通常需要 LCM 或 Turbo 这类蒸馏/一致性模型变体。"
},
{
"stage": "post",
"question": "为什么对 Stable Diffusion 而言 LoRA 微调比全量微调更流行?",
"options": [
"LoRA 默认能产生更好的图像",
"LoRA 保持 8.6 亿参数的基础 U-Net 冻结,并在 attention 层中插入微小的秩分解矩阵,因此微调可在消费级硬件上几分钟内完成,产生 10-50 MB 的适配器,并可在推理时切换或混合",
"diffusers 要求使用 LoRA",
"LoRA 能完全防止过拟合"
],
"correct": 1,
"explanation": "LoRA 的价值在于训练成本和分发。SD 全量微调更新 8.6 亿以上参数,需要 20 GB 以上显存。LoRA 更新约 100 万到 1000 万参数,6-8 GB 即可。基础模型保持不变,因此同一个 LoRA 可加载进任何兼容的检查点,多个 LoRA 还可组合。CivitAI 的生态几乎全是 LoRA。"
},
{
"stage": "post",
"question": "你用 guidance_scale=15 生成同一个提示词,看到过饱和的颜色和烧入式的伪影。发生了什么?",
"options": [
"模型坏了",
"CFG 放大条件方向;超过约 9-12 的阈值后,这种放大会把预测推到 VAE 无法干净解码的流形之外,产生视觉伪影。把引导降到 7-9 可获得平衡的结果",
"VAE 需要重新训练",
"种子错了"
],
"correct": 1,
"explanation": "CFG 的公式是无界的:更大的 w 使预测沿 (eps_cond - eps_uncond) 走得更远。超过某个点后,你就离开了训练分布,VAE 解码器会产生过饱和、色调分离的图像。生产默认值是 7-8。一些更新的调度器支持 CFG 调度(在最终时间步降低 w)以避免这一问题。"
}
]
}