ai-engineering-from-scratch-zh/phases/18-ethics-safety-alignment/01-instruction-following-alignment-signal/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "01-instruction-following-alignment-signal",
  "title": "把指令遵循作为对齐信号",
  "questions": [
    {
      "stage": "pre",
      "question": "为什么一个原始的预训练语言模型在面对「写一个反转列表的 Python 函数」时，常常回以另一个 prompt 而非代码？",
      "options": [
        "它的词表里缺少 Python token",
        "不经过微调它无法表示函数签名",
        "它的温度默认为零",
        "它被训练来续写网页风格的文本，而在那里 prompt 之后往往跟着更多 prompt"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "InstructGPT 的奖励模型在成对偏好标签上使用哪种损失？",
      "options": [
        "对标注者分数的均方误差",
        "Bradley-Terry：-log sigmoid(r(x, y_w) - r(x, y_l))",
        "带固定 margin 的 hinge loss",
        "预测奖励与真实奖励之间的交叉熵"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "InstructGPT 第 3 阶段中的 KL 惩罚主要防范什么？",
      "options": [
        "对 tokenizer 统计量的灾难性遗忘",
        "PPO 梯度更新中的数值不稳定",
        "采样期间上下文窗口溢出",
        "优化器找到能利用奖励模型漏洞的对抗性高奖励字符串"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "PPO-ptx 在 RL 目标中混入预训练梯度，是为了缓解什么问题？",
      "options": [
        "奖励模型在 PPO 期间发生漂移",
        "KL 项变为负值",
        "对齐税（alignment tax）：在 RLHF 未针对的基准上出现回退",
        "SFT 与 RM 之间的 tokenizer 不匹配"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "一个 1.3B 的 InstructGPT 约有 70% 的概率被偏好于 175B 的基础 GPT-3。这对对齐与能力说明了什么？",
      "options": [
        "对齐是与能力不同的一个维度，而基础模型设定了能力下限",
        "偏好率高于 50% 就证明了代理奖励等同于人类价值观",
        "在规模化下，能力与对齐是同一个维度",
        "更大的基础模型总会输给小的对齐模型"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "InstructGPT 中的奖励模型是从以下哪一项初始化而来的？",
      "options": [
        "一个无预训练的随机标量回归器",
        "一个单独的 encoder-only transformer",
        "保留 LM head 的基础预训练模型",
        "把 LM head 替换为标量 head 的 SFT 模型"
      ],
      "correct": 3,
      "explanation": ""
    }
  ]
}