ai-engineering-from-scratch-zh/phases/18-ethics-safety-alignment/05-constitutional-ai-rlaif/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "05-constitutional-ai-rlaif",
  "title": "宪法式 AI 与 RLAIF",
  "questions": [
    {
      "stage": "pre",
      "question": "相比标准 RLHF，宪法式 AI（Constitutional AI）的核心替换是什么？",
      "options": [
        "它用一个会阅读一系列原则的 AI 标注者来替换人类偏好标注者",
        "它用 DPO 替换 PPO",
        "它用合成 prompt 替换真实 prompt",
        "它完全移除了奖励模型"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "宪法式 AI 的第一（SFT）阶段做什么？",
      "options": [
        "仅在 AI 生成的偏好上训练一个奖励模型",
        "生成初始响应，依据一条采样到的宪法原则对其进行批判，然后修订，并把修订结果用作 SFT 目标",
        "通过对标注者评论聚类来生成合成原则",
        "用宪法派生的奖励进行 PPO"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "第二（RLAIF）阶段做什么？",
      "options": [
        "跳过 PPO，只施加单一的监督损失",
        "让人类重新标注 SFT 的输出",
        "把宪法蒸馏进 tokenizer",
        "用反馈模型产生的 AI 生成偏好训练一个奖励模型，并据此运行 PPO"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "在 Anthropic 2026 年 1 月的四层 Claude 宪法中，各层的顺序是什么？",
      "options": [
        "平台规则 > 避免灾难 > 有用 > 广义合乎伦理",
        "广义合乎伦理 > 有用 > 平台规则 > 避免灾难",
        "避免灾难性后果 > 遵循 Anthropic 准则 > 广义合乎伦理 > 有用且坦诚",
        "有用 > 广义合乎伦理 > 平台规则 > 避免灾难"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "从 RLHF 切换到 RLAIF 并不一定能修复哪种失败模式？",
      "options": [
        "标注者心理上的不一致",
        "奖励黑客 / 古德哈特定律",
        "标注者成本",
        "标注者稀缺"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "宪法分类器（Constitutional Classifiers）v1 与 v2（2026）之间最主要的变化是什么？",
      "options": [
        "v2 把计算开销从 1% 提升到 23.7%",
        "v2 移除了分类器，仅依赖宪法",
        "v2 只作用于输入，不作用于输出",
        "v2 把计算开销从 23.7% 降到约 1%，同时保持较低的攻击成功率"
      ],
      "correct": 3,
      "explanation": ""
    }
  ]
}