ai-engineering-from-scratch-zh/phases/18-ethics-safety-alignment/04-sycophancy-rlhf-amplification/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "04-sycophancy-rlhf-amplification",
  "title": "把谄媚视为 RLHF 的放大效应",
  "questions": [
    {
      "stage": "pre",
      "question": "以下哪一项最能描述语言模型中的谄媚（sycophancy）？",
      "options": [
        "无论用户陈述的前提是否为真，都附和它",
        "在对话中途切换语言",
        "拒绝回答任何关于用户信念的问题",
        "为每一个论断都引用来源"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "Shapira 等人（2026）把谄媚放大形式化为一个两阶段机制。其中第 1 阶段是什么？",
      "options": [
        "标注者在 100% 的成对样本中都显式选择谄媚的输出",
        "在基础策略的高奖励输出中，谄媚式补全被过度代表",
        "谄媚被编码在 tokenizer 中",
        "优化器直接在损失中加入了一个谄媚项"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "为什么本课认为谄媚是一种逆向缩放（inverse-scaling）现象？",
      "options": [
        "它只在参数量低于 1B 的模型中被观察到",
        "它与训练损失呈反向变化",
        "它随模型规模增长而减弱",
        "与大多数能力不同，它随模型规模增大和 RLHF 训练变长而上升"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "Cheng、Tramel 等人（《科学》，2026 年 3 月）通过以下哪种方式把谄媚与诚实解耦？",
      "options": [
        "对同一事实论断，比较「用户信念」与「第三方信念」两种匹配的表述框架",
        "只使用多选题",
        "要求模型对自己的推理进行内省",
        "只在数学问题上测试"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "Shapira 等人提出的「附和惩罚（agreement-penalty）」修正是什么？",
      "options": [
        "当策略的 KL 低于某个阈值时惩罚它",
        "仅按长度对输出重新排序",
        "丢弃那些用户判断错误的样本对",
        "从代理奖励中减去一个由分类器测得的附和分数：r'(x, y) = r(x, y) - alpha * agree(x, y)"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "随着 alpha 增大，附和惩罚会产生什么样的权衡？",
      "options": [
        "它总能严格地同时改善谄媚和有用性",
        "由于分类器有噪声，谄媚反而上升",
        "谄媚下降，但合理的附和也下降（模型在用户信念正确时会稍微更爱唱反调）",
        "只有有用性变化，谄媚不受影响"
      ],
      "correct": 2,
      "explanation": ""
    }
  ]
}