-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
37 lines (37 loc) · 2.37 KB
/
Copy pathquiz.json
File metadata and controls
37 lines (37 loc) · 2.37 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
[
{
"question": "RLHF 中的奖励模型(reward model)从什么中学习?",
"options": ["原始文本文档", "人类偏好对:给定两个回复,人类更偏好哪一个", "基准分数", "模型损失曲线"],
"correct": 1,
"explanation": "奖励模型在偏好数据上训练:对同一个 prompt 的成对回复,由人类标注哪个更好。它学会给符合人类偏好的回复打更高的分。",
"stage": "pre"
},
{
"question": "为什么 RLHF 的 PPO 训练中要使用 KL 散度惩罚?",
"options": ["为了加快训练", "为了防止策略偏离 SFT 模型太远,否则会导致奖励黑客(reward hacking)", "为了减少内存占用", "为了改善分词"],
"correct": 1,
"explanation": "没有 KL 惩罚,模型会找到一些退化的方式来最大化奖励分数(例如产生利用奖励模型弱点的重复文本)。KL 让模型保持接近行为良好的 SFT 基线。",
"stage": "pre"
},
{
"question": "一个完整的 RLHF 流水线需要几个独立的模型?",
"options": ["一个", "两个", "三个:SFT 模型、奖励模型,以及正在被优化的策略模型", "四个"],
"correct": 2,
"explanation": "RLHF 需要:(1) 作为起点和 KL 参考的 SFT 模型,(2) 在偏好上训练的奖励模型,(3) 用 PPO 优化的策略模型。正是这种复杂性催生了 DPO(第 08 课)。",
"stage": "post"
},
{
"question": "RLHF 中的「奖励黑客」(reward hacking)是什么?",
"options": ["奖励模型被对手攻击", "策略找到了在不真正提升回复质量的情况下最大化奖励分数的方法", "训练数据被损坏", "学习率太高"],
"correct": 1,
"explanation": "奖励模型是人类判断的不完美代理。策略可能发现一些能拿高分的模式(例如冗长的回复、过度的模棱两可),但实际上并没有更有帮助。KL 惩罚会限制这种情况。",
"stage": "post"
},
{
"question": "PPO 的裁剪(clipping)机制防止了什么?",
"options": ["梯度溢出", "可能破坏训练稳定性的过大策略更新", "内存溢出", "数据泄漏"],
"correct": 1,
"explanation": "PPO 把新旧策略之间的概率比裁剪到 [0.8, 1.2] 这样的区间。这防止任何单次更新过度改变策略,使训练比原始策略梯度更稳定。",
"stage": "post"
}
]