-
Notifications
You must be signed in to change notification settings - Fork 36
Expand file tree
/
Copy pathquiz.json
More file actions
90 lines (90 loc) · 3.24 KB
/
Copy pathquiz.json
File metadata and controls
90 lines (90 loc) · 3.24 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
{
"lesson": "30-eval-driven-agent-development",
"title": "评估驱动的 agent 开发",
"questions": [
{
"stage": "pre",
"question": "本课命名的三个评估层是什么?",
"options": [
"静态基准、自定义离线评估、在线生产评估",
"单元、集成、端到端",
"冒烟、回归、验收",
"Pre、check、post"
],
"correct": 0,
"explanation": "静态(SWE-bench、GAIA)、自定义离线(LLM 评判、执行、轨迹)、在线(重放、告警、成本/延迟)。"
},
{
"stage": "pre",
"question": "Anthropic 推荐的起点是什么?",
"options": [
"从多 agent 辩论开始",
"从简单的 prompt 开始,用全面的评估来优化它们,只在需要时再加入多步 agent 系统",
"从层级式编排开始",
"只从一个前沿模型开始"
],
"correct": 1,
"explanation": "Anthropic 明确说评估是驱动其他每个选择的外层循环。"
},
{
"stage": "check",
"question": "评估器-优化器的紧循环是什么?",
"options": [
"训练、评估、部署",
"提议者生成输出,评估器评判,refine 直到评估器通过(Self-Refine 的泛化)",
"Sample、sort、deduplicate",
"Cache、retry、fail"
],
"correct": 1,
"explanation": "它是 Self-Refine 的泛化:任何流程都可以包装成「提议-评判-refine」。"
},
{
"stage": "check",
"question": "关于评估应放在哪里,2026 年的最佳实践是什么?",
"options": [
"只在一个单独的厂商仪表盘里",
"放在代码旁边,在每个 PR 的 CI 中运行,用评估分数把控合并",
"只每季度运行一次",
"完全由 QA 团队拥有"
],
"correct": 1,
"explanation": "与代码同处、CI 把控、回归追踪是标准做法。"
},
{
"stage": "check",
"question": "为什么本课告诫不要使用无接地的 LLM 评判者?",
"options": [
"它太慢",
"评判者也会产生幻觉;与 CRITIC 模式配对,使评判基于外部工具接地",
"它违反 Apache 2.0",
"它只在 GPU 上有效"
],
"correct": 1,
"explanation": "CRITIC(第 5 课)适用:基于工具的核实让评判者保持诚实。"
},
{
"stage": "post",
"question": "对评估过拟合的危险是什么?",
"options": [
"算力成本上升",
"为评估集优化会偏离生产有用性;要轮换用例",
"向量索引碎片化",
"延迟下降太多"
],
"correct": 1,
"explanation": "评估集轮换使优化与生产现实保持一致。"
},
{
"stage": "post",
"question": "为什么不稳定的评估(flaky evals)会造成问题?",
"options": [
"它们使推理成本翻倍",
"非确定性用例会产生误报;固定种子并对状态做快照",
"它们无法连到数据库",
"它们超出上下文窗口"
],
"correct": 1,
"explanation": "不稳定让回归无法读懂;需要确定性(种子、状态快照)。"
}
]
}