ai-engineering-from-scratch-zh/phases/18-ethics-safety-alignment/11-scalable-oversight-weak-to-strong/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "11-scalable-oversight-weak-to-strong",
  "title": "可扩展监督与「弱到强」泛化",
  "questions": [
    {
      "stage": "pre",
      "question": "超级对齐（Superalignment）议程提出的核心问题是什么？",
      "options": [
        "RLHF 能否扩展到超过 1B 参数？",
        "对抗训练能否移除所有后门？",
        "一个能力较弱的监督者能否可靠地监督一个更强、且对齐的模型？",
        "人类是否比奖励模型更准确？"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "在 Burns 等人（2023）的「弱到强」泛化中，实验设置是怎样的？",
      "options": [
        "奖励模型仅在合成数据上训练",
        "两个强模型辩论，由人类裁判",
        "用 GPT-4 的标签微调 GPT-2",
        "用一个弱模型（GPT-2 级）产生的标签去微调一个强模型（GPT-4 级），并对照强模型有监督的上限来衡量其能力"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "「性能差距恢复率（PGR）」是如何定义的？",
      "options": [
        "(上限 - 微调后) / 弱",
        "(微调后 - 弱) / (上限 - 弱)",
        "微调后 / 上限",
        "(弱 - 上限) / 上限"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "以下哪一项不是本课列出的可扩展监督机制？",
      "options": [
        "任务分解（Task Decomposition）",
        "Tokenizer 蒸馏",
        "递归奖励建模（Recursive Reward Modeling）",
        "辩论（Debate）"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "可扩展监督与 W2SG（弱到强泛化）如何互补？",
      "options": [
        "可扩展监督提升监督者有效信号的质量；W2SG 则弥合监督者所提供的任何不完美信号留下的差距",
        "它们都针对同一指标",
        "它们是互斥的",
        "它们都需要白盒访问"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "「通过辩论保障 AI 安全」这一机制的核心假设是什么？",
      "options": [
        "辩论的文字记录总是比直接答案更短",
        "找到一个有说服力的真答案比找到一个有说服力的假答案更容易",
        "裁判比辩手更有能力",
        "两位辩手总是说真话"
      ],
      "correct": 1,
      "explanation": ""
    }
  ]
}