-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
90 lines (90 loc) · 3.53 KB
/
Copy pathquiz.json
File metadata and controls
90 lines (90 loc) · 3.53 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
{
"lesson": "39-reviewer-agent",
"title": "审查者 agent:把构建者和评分者分开",
"questions": [
{
"stage": "pre",
"question": "为什么构建者无法可靠地给自己的工作打分?",
"options": [
"它会耗尽 token",
"验收是必要但不充分的;问题契合度、范围纪律、记录在案的假设和交接就绪度,需要一个有不同输入的不同角色",
"它丢失了认证",
"模型拒绝自我评分"
],
"correct": 1,
"explanation": "构建者与审查者之间的鸿沟正是可靠性所在;验收只能证明一个更弱的版本。"
},
{
"stage": "pre",
"question": "下列哪一个不是五个评分标准维度之一?",
"options": [
"问题契合度(Problem fit)",
"范围纪律(Scope discipline)",
"验证质量(Verification quality)",
"推理延迟(Inference latency)"
],
"correct": 3,
"explanation": "这五个是问题契合度、范围纪律、假设、验证质量、交接就绪度。"
},
{
"stage": "check",
"question": "角色分离需要什么?",
"options": [
"一个不同的模型",
"一个不同的 system prompt 和不同的输入;只要姿态改变、且审查者对 diff 无写入权限,同一个模型可以扮演两个角色",
"不同的物理硬件",
"一个新账号"
],
"correct": 1,
"explanation": "纪律在于姿态和输入,而不在于模型身份。"
},
{
"stage": "check",
"question": "Cloudflare 的 2026 审查架构长什么样?",
"options": [
"一个大审查者",
"在一个 Review Coordinator 下并行运行多达七个专家审查者并去重发现;只有协调者用顶级模型,专家用更便宜的档位",
"轮转两个审查者",
"单个顺序 LLM"
],
"correct": 1,
"explanation": "Cloudflare 用专家 + 协调者架构在 30 天内跑了 131,246 次审查。"
},
{
"stage": "check",
"question": "下列哪一个不是本课列出的四种 LLM 评判偏差之一?",
"options": [
"位置偏差(A,B vs B,A 顺序不一致)",
"冗长偏差(更长的输出得分更高)",
"自我偏好(同一模型家族)",
"向量局部性(vector locality)"
],
"correct": 3,
"explanation": "这四种是位置、冗长、自我偏好、权威;向量局部性不是其中之一。"
},
{
"stage": "post",
"question": "什么是校准集(calibration set)?",
"options": [
"一个新的训练语料",
"10-20 个有已知正确裁决的历史任务收尾;每次 prompt 改动时重跑;若审查者一致性低于 80%,先修评分标准再上线",
"一个 A/B 测试夹具",
"一个向量索引"
],
"correct": 1,
"explanation": "校准集让审查者保持诚实;若一致性漂移,你修的是评分标准,不是数据。"
},
{
"stage": "post",
"question": "审查者的报告与工作台其余部分在哪里整合?",
"options": [
"它替换验证",
"它打包进交接包(第 40 课);人工审查从这份报告开始,而不是从一张白纸开始",
"它覆盖门",
"它只发给经理"
],
"correct": 1,
"explanation": "审查报告喂给交接,使下一个会话和人工审查者都从一份书面裁决开始。"
}
]
}