ai-engineering-from-scratch-zh/phases/04-computer-vision/11-stable-diffusion/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "为什么 Stable Diffusion 在 4x64x64 的潜空间中运行其 DDPM，而不是直接在 3x512x512 的像素图像上运行？",
      "options": [
        "潜变量更容易可视化",
        "在 16,384 个潜变量上而不是 786,432 个像素上训练和采样大约便宜 48 倍；一个预训练的 VAE 负责图像与潜变量之间的转换，扩散模型只需对结构化的潜变量流形建模",
        "潜变量是 GPU 的原生输出",
        "为了使推理具有确定性"
      ],
      "correct": 1,
      "explanation": "潜空间扩散是使消费级 GPU 文生图变得可行的那一项关键创新。VAE 在空间和通道上压缩了 48 倍信息。扩散模型可以把它全部的参数和计算预算用于对潜变量流形建模，而那正是用户在解码后看到的部分。"
    },
    {
      "stage": "pre",
      "question": "无分类器引导（CFG）在推理时做什么？",
      "options": [
        "运行两个独立的模型并取平均",
        "使用一个被训练为同时预测有条件噪声 eps_cond 和无条件噪声 eps_uncond 的模型，然后以 eps = eps_uncond + w*(eps_cond - eps_uncond) 的方式组合，以放大对提示词的遵循",
        "在测试时给模型加一个分类头",
        "使用更大的调度器"
      ],
      "correct": 1,
      "explanation": "CFG 训练单个模型，并在 10% 的时间里丢弃条件，使同一套权重既能产生有条件预测又能产生无条件预测。在推理时，上面的公式放大了条件方向。引导尺度 w 是调节提示词遵循度与多样性之间平衡的标准旋钮；SD 默认为 7.5。"
    },
    {
      "stage": "post",
      "question": "你把 SD 的默认调度器换成 DPM-Solver++ 2M Karras，并把 num_inference_steps 从 50 减到 20。预期结果是什么？",
      "options": [
        "质量更差、运行时间更长",
        "在大约一半的时间内达到相当的质量；DPM-Solver++ 是一个二阶 ODE 积分器，在相同采样质量下比 DDIM 用更少的步数收敛",
        "数值不稳定",
        "你还必须重新训练模型"
      ],
      "correct": 1,
      "explanation": "调度器与模型权重是解耦的。DPM-Solver++ 是一个高阶求解器，约 20 步就能达到 DDIM-50 的质量。无需任何重新训练，它是 2026 年的生产默认选择。降到 8 步以下通常需要 LCM 或 Turbo 这类蒸馏/一致性模型变体。"
    },
    {
      "stage": "post",
      "question": "为什么对 Stable Diffusion 而言 LoRA 微调比全量微调更流行？",
      "options": [
        "LoRA 默认能产生更好的图像",
        "LoRA 保持 8.6 亿参数的基础 U-Net 冻结，并在 attention 层中插入微小的秩分解矩阵，因此微调可在消费级硬件上几分钟内完成，产生 10-50 MB 的适配器，并可在推理时切换或混合",
        "diffusers 要求使用 LoRA",
        "LoRA 能完全防止过拟合"
      ],
      "correct": 1,
      "explanation": "LoRA 的价值在于训练成本和分发。SD 全量微调更新 8.6 亿以上参数，需要 20 GB 以上显存。LoRA 更新约 100 万到 1000 万参数，6-8 GB 即可。基础模型保持不变，因此同一个 LoRA 可加载进任何兼容的检查点，多个 LoRA 还可组合。CivitAI 的生态几乎全是 LoRA。"
    },
    {
      "stage": "post",
      "question": "你用 guidance_scale=15 生成同一个提示词，看到过饱和的颜色和烧入式的伪影。发生了什么？",
      "options": [
        "模型坏了",
        "CFG 放大条件方向；超过约 9-12 的阈值后，这种放大会把预测推到 VAE 无法干净解码的流形之外，产生视觉伪影。把引导降到 7-9 可获得平衡的结果",
        "VAE 需要重新训练",
        "种子错了"
      ],
      "correct": 1,
      "explanation": "CFG 的公式是无界的：更大的 w 使预测沿 (eps_cond - eps_uncond) 走得更远。超过某个点后，你就离开了训练分布，VAE 解码器会产生过饱和、色调分离的图像。生产默认值是 7-8。一些更新的调度器支持 CFG 调度（在最终时间步降低 w）以避免这一问题。"
    }
  ]
}