ai-engineering-from-scratch-zh/phases/18-ethics-safety-alignment/10-ai-control-subversion/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "10-ai-control-subversion",
  "title": "AI 控制 —— 即使被颠覆也能保障安全",
  "questions": [
    {
      "stage": "pre",
      "question": "以下哪一项最能刻画对齐与 AI 控制（AI control）的区别？",
      "options": [
        "对齐问的是 U 是否可信；控制问的是我们能否在不信任 U 的情况下安全地使用它",
        "控制替换损失函数，而对齐改变优化器",
        "它们是同义词",
        "控制关乎硬件；对齐关乎软件"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "AI 控制的威胁模型假设了什么？",
      "options": [
        "U 是不可信的强模型，T 是可信的弱模型，H 是有限的可信人类劳动",
        "U 和 T 都是对抗性的",
        "三种资源（U、T、H）全都可信",
        "只存在 U"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "在「不可信监控（Untrusted Monitoring）」中，「可信编辑（Trusted Editing）」所规避的关键风险是什么？",
      "options": [
        "U 的两个实例可能合谋或共享先验，因此协议必须花费预算来抵御合谋",
        "人类无法被审计",
        "硬件争用",
        "T 无法编辑文本"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "在 Greenblatt 等人（ICML 2024）的代码后门任务上，可信编辑相对于不可信监控达成了什么？",
      "options": [
        "它严格更差",
        "它只在零人类预算时胜出",
        "二者完全等价",
        "它严格帕累托占优：在每一个安全水平上都有更高的有用性"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "以下哪一项不是本课列出的控制的三个根本性局限之一？",
      "options": [
        "可信的弱模型最终会落后于 U",
        "控制会顺带产出对齐的模型",
        "人类无法扩展",
        "如果 U 能操纵 T 或推断出 H 的审计分布，控制可能在更高能力水平上失效"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "一份「控制安全论证（Control Safety Case）」论证了什么？",
      "options": [
        "T 比 U 更有能力",
        "在关于 U 的最坏情况假设下，部署协议把不可接受结果的概率限定在一定范围内",
        "U 是可信的",
        "模型通过了一次手动越狱测试"
      ],
      "correct": 1,
      "explanation": ""
    }
  ]
}