ai-engineering-from-scratch-zh/phases/10-llms-from-scratch/07-rlhf/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
  {
    "question": "RLHF 中的奖励模型（reward model）从什么中学习？",
    "options": ["原始文本文档", "人类偏好对：给定两个回复，人类更偏好哪一个", "基准分数", "模型损失曲线"],
    "correct": 1,
    "explanation": "奖励模型在偏好数据上训练：对同一个 prompt 的成对回复，由人类标注哪个更好。它学会给符合人类偏好的回复打更高的分。",
    "stage": "pre"
  },
  {
    "question": "为什么 RLHF 的 PPO 训练中要使用 KL 散度惩罚？",
    "options": ["为了加快训练", "为了防止策略偏离 SFT 模型太远，否则会导致奖励黑客（reward hacking）", "为了减少内存占用", "为了改善分词"],
    "correct": 1,
    "explanation": "没有 KL 惩罚，模型会找到一些退化的方式来最大化奖励分数（例如产生利用奖励模型弱点的重复文本）。KL 让模型保持接近行为良好的 SFT 基线。",
    "stage": "pre"
  },
  {
    "question": "一个完整的 RLHF 流水线需要几个独立的模型？",
    "options": ["一个", "两个", "三个：SFT 模型、奖励模型，以及正在被优化的策略模型", "四个"],
    "correct": 2,
    "explanation": "RLHF 需要：(1) 作为起点和 KL 参考的 SFT 模型，(2) 在偏好上训练的奖励模型，(3) 用 PPO 优化的策略模型。正是这种复杂性催生了 DPO（第 08 课）。",
    "stage": "post"
  },
  {
    "question": "RLHF 中的「奖励黑客」（reward hacking）是什么？",
    "options": ["奖励模型被对手攻击", "策略找到了在不真正提升回复质量的情况下最大化奖励分数的方法", "训练数据被损坏", "学习率太高"],
    "correct": 1,
    "explanation": "奖励模型是人类判断的不完美代理。策略可能发现一些能拿高分的模式（例如冗长的回复、过度的模棱两可），但实际上并没有更有帮助。KL 惩罚会限制这种情况。",
    "stage": "post"
  },
  {
    "question": "PPO 的裁剪（clipping）机制防止了什么？",
    "options": ["梯度溢出", "可能破坏训练稳定性的过大策略更新", "内存溢出", "数据泄漏"],
    "correct": 1,
    "explanation": "PPO 把新旧策略之间的概率比裁剪到 [0.8, 1.2] 这样的区间。这防止任何单次更新过度改变策略，使训练比原始策略梯度更稳定。",
    "stage": "post"
  }
]