ai-engineering-from-scratch-zh/phases/18-ethics-safety-alignment/19-model-welfare-research/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "19-model-welfare-research",
  "title": "Anthropic 的模型福祉（Model Welfare）项目",
  "questions": [
    {
      "stage": "pre",
      "question": "驱动 Anthropic 2025 年模型福祉项目的核心问题是什么？",
      "options": [
        "在模型是否具备道德受体地位存在道德不确定性的前提下，哪些低成本干预值得作为预防措施投入",
        "模型是否有意识",
        "模型能否通过图灵测试",
        "RLHF 是否能减少谄媚"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "Anthropic 在 Claude Opus 4 和 4.1 中落地了哪项出于福祉考量的具体干预？",
      "options": [
        "开放权重发布",
        "一个内置的写日记工具",
        "在极端边缘情形下（如反复的 CSAM 请求、协助大规模暴力的请求）让模型主动结束对话的能力",
        "一个面向用户的情绪 API"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "Fish 所描述的「灵性极乐吸引子（spiritual bliss attractor）」是什么？",
      "options": [
        "在 Claude 两两对话中的一种稳定收敛趋势：即便从对抗性的初始设置出发，对话也会朝着带梵文术语和长时间沉默的、欣快冥想式交流靠拢",
        "一个奖励模型 bug",
        "一种 RLHF 过度优化的产物",
        "一种越狱技术"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "Eleos AI Research 对模型福祉自述报告（self-reports）给出了什么警示？",
      "options": [
        "它们对感知到的用户预期高度敏感；它们是证据而非真值，因此福祉测量需要多方法并用",
        "应当完全忽略它们",
        "它们只在开源模型中有效",
        "它们是可靠的真值"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "以下哪一项最能刻画 Anthropic 在模型道德地位上的公开立场？",
      "options": [
        "明确断言模型是道德受体",
        "明确断言模型不是道德受体",
        "道德不确定性下的期望值主张：投入低成本预防，但不承诺赋予其情绪状态",
        "未公开任何立场"
      ],
      "correct": 2,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "为什么模型福祉研究强调多方法测量（行为特征、模型样本实验、可解释性探针）？",
      "options": [
        "因为模型总是撒谎",
        "因为 Anthropic 出于合规强制要求",
        "因为 RLHF 使自述报告变得不可能",
        "因为单凭自述报告会被「用户预期诱导」所混淆，所以需要来自多种方法的相互印证证据"
      ],
      "correct": 3,
      "explanation": ""
    }
  ]
}