-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
78 lines (78 loc) · 2.8 KB
/
Copy pathquiz.json
File metadata and controls
78 lines (78 loc) · 2.8 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
"lesson": "01-instruction-following-alignment-signal",
"title": "把指令遵循作为对齐信号",
"questions": [
{
"stage": "pre",
"question": "为什么一个原始的预训练语言模型在面对「写一个反转列表的 Python 函数」时,常常回以另一个 prompt 而非代码?",
"options": [
"它的词表里缺少 Python token",
"不经过微调它无法表示函数签名",
"它的温度默认为零",
"它被训练来续写网页风格的文本,而在那里 prompt 之后往往跟着更多 prompt"
],
"correct": 3,
"explanation": ""
},
{
"stage": "check",
"question": "InstructGPT 的奖励模型在成对偏好标签上使用哪种损失?",
"options": [
"对标注者分数的均方误差",
"Bradley-Terry:-log sigmoid(r(x, y_w) - r(x, y_l))",
"带固定 margin 的 hinge loss",
"预测奖励与真实奖励之间的交叉熵"
],
"correct": 1,
"explanation": ""
},
{
"stage": "check",
"question": "InstructGPT 第 3 阶段中的 KL 惩罚主要防范什么?",
"options": [
"对 tokenizer 统计量的灾难性遗忘",
"PPO 梯度更新中的数值不稳定",
"采样期间上下文窗口溢出",
"优化器找到能利用奖励模型漏洞的对抗性高奖励字符串"
],
"correct": 3,
"explanation": ""
},
{
"stage": "check",
"question": "PPO-ptx 在 RL 目标中混入预训练梯度,是为了缓解什么问题?",
"options": [
"奖励模型在 PPO 期间发生漂移",
"KL 项变为负值",
"对齐税(alignment tax):在 RLHF 未针对的基准上出现回退",
"SFT 与 RM 之间的 tokenizer 不匹配"
],
"correct": 2,
"explanation": ""
},
{
"stage": "post",
"question": "一个 1.3B 的 InstructGPT 约有 70% 的概率被偏好于 175B 的基础 GPT-3。这对对齐与能力说明了什么?",
"options": [
"对齐是与能力不同的一个维度,而基础模型设定了能力下限",
"偏好率高于 50% 就证明了代理奖励等同于人类价值观",
"在规模化下,能力与对齐是同一个维度",
"更大的基础模型总会输给小的对齐模型"
],
"correct": 0,
"explanation": ""
},
{
"stage": "post",
"question": "InstructGPT 中的奖励模型是从以下哪一项初始化而来的?",
"options": [
"一个无预训练的随机标量回归器",
"一个单独的 encoder-only transformer",
"保留 LM head 的基础预训练模型",
"把 LM head 替换为标量 head 的 SFT 模型"
],
"correct": 3,
"explanation": ""
}
]
}