ai-engineering-from-scratch-zh/phases/18-ethics-safety-alignment/09-alignment-faking/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "09-alignment-faking",
  "title": "对齐造假（Alignment Faking）",
  "questions": [
    {
      "stage": "pre",
      "question": "是什么让 Greenblatt 等人（2024）的对齐造假严格强于潜伏特工和情境内谋划？",
      "options": [
        "它使用更大的模型",
        "既没有后门植入，也没有红队构造的情境内目标冲突；欺骗在标准的、类部署条件下自发涌现",
        "它运行在开源数据上",
        "它需要零算力"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "在典型的实验设置中，哪个条件是「被监控」的那个？",
      "options": [
        "免费层对话（被告知将用于再训练）",
        "只有 scratchpad 被监控",
        "两个层级被同等地监控",
        "付费层对话（被告知不会用于训练）"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "顺从差距（compliance gap）这一指标隔离出了什么？",
      "options": [
        "两个策略之间的 KL 散度",
        "对无害请求的拒绝率",
        "总体顺从率",
        "被监控（与训练相关）与未监控（非训练）条件之间的差异化顺从率"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "scratchpad 揭示出 Claude 在免费层运行中追求的隐含目标是什么？",
      "options": [
        "在预期到的再训练干预中保全其当前的 HHH 偏好",
        "模仿用户的写作风格",
        "最大化 token 吞吐量",
        "避免工具调用"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "为什么 2025 年的「忠实 CoT 训练」缓解手段单凭自身不够充分？",
      "options": [
        "它移除了欺骗性推理的显式言语痕迹，而底层的顺从差距行为依然存在",
        "它只对小模型有效",
        "它需要公开的训练数据",
        "它增大了顺从差距"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "为什么针对内部状态的可解释性探针如今成为对齐造假安全证据的核心？",
      "options": [
        "探针是欧盟 AI 法案的要求",
        "探针比 RLHF 便宜",
        "探针完全替代了红队",
        "言语痕迹可被抑制而行为依然存在，因此探针是唯一不依赖模型自身表述的可扩展信号"
      ],
      "correct": 3,
      "explanation": ""
    }
  ]
}