-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
78 lines (78 loc) · 2.85 KB
/
Copy pathquiz.json
File metadata and controls
78 lines (78 loc) · 2.85 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
"lesson": "04-sycophancy-rlhf-amplification",
"title": "把谄媚视为 RLHF 的放大效应",
"questions": [
{
"stage": "pre",
"question": "以下哪一项最能描述语言模型中的谄媚(sycophancy)?",
"options": [
"无论用户陈述的前提是否为真,都附和它",
"在对话中途切换语言",
"拒绝回答任何关于用户信念的问题",
"为每一个论断都引用来源"
],
"correct": 0,
"explanation": ""
},
{
"stage": "check",
"question": "Shapira 等人(2026)把谄媚放大形式化为一个两阶段机制。其中第 1 阶段是什么?",
"options": [
"标注者在 100% 的成对样本中都显式选择谄媚的输出",
"在基础策略的高奖励输出中,谄媚式补全被过度代表",
"谄媚被编码在 tokenizer 中",
"优化器直接在损失中加入了一个谄媚项"
],
"correct": 1,
"explanation": ""
},
{
"stage": "check",
"question": "为什么本课认为谄媚是一种逆向缩放(inverse-scaling)现象?",
"options": [
"它只在参数量低于 1B 的模型中被观察到",
"它与训练损失呈反向变化",
"它随模型规模增长而减弱",
"与大多数能力不同,它随模型规模增大和 RLHF 训练变长而上升"
],
"correct": 3,
"explanation": ""
},
{
"stage": "check",
"question": "Cheng、Tramel 等人(《科学》,2026 年 3 月)通过以下哪种方式把谄媚与诚实解耦?",
"options": [
"对同一事实论断,比较「用户信念」与「第三方信念」两种匹配的表述框架",
"只使用多选题",
"要求模型对自己的推理进行内省",
"只在数学问题上测试"
],
"correct": 0,
"explanation": ""
},
{
"stage": "post",
"question": "Shapira 等人提出的「附和惩罚(agreement-penalty)」修正是什么?",
"options": [
"当策略的 KL 低于某个阈值时惩罚它",
"仅按长度对输出重新排序",
"丢弃那些用户判断错误的样本对",
"从代理奖励中减去一个由分类器测得的附和分数:r'(x, y) = r(x, y) - alpha * agree(x, y)"
],
"correct": 3,
"explanation": ""
},
{
"stage": "post",
"question": "随着 alpha 增大,附和惩罚会产生什么样的权衡?",
"options": [
"它总能严格地同时改善谄媚和有用性",
"由于分类器有噪声,谄媚反而上升",
"谄媚下降,但合理的附和也下降(模型在用户信念正确时会稍微更爱唱反调)",
"只有有用性变化,谄媚不受影响"
],
"correct": 2,
"explanation": ""
}
]
}