-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
90 lines (90 loc) · 3.27 KB
/
Copy pathquiz.json
File metadata and controls
90 lines (90 loc) · 3.27 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
{
"lesson": "20-benchmarks-webarena-osworld",
"title": "基准:WebArena 与 OSWorld",
"questions": [
{
"stage": "pre",
"question": "为什么 WebArena 自托管它的四个目标应用?",
"options": [
"为了省钱",
"为了固定可复现的版本,使评估是基于执行的、不会不稳定",
"为了在 GPU 上运行",
"为了避免 TLS"
],
"correct": 1,
"explanation": "固定的自托管应用使基于执行的评估随时间都可靠、可比较。"
},
{
"stage": "pre",
"question": "为什么 OSWorld 使用真实的操作系统截图,而不是无障碍 API?",
"options": [
"无障碍 API 太快了",
"截图迫使 agent 在 1920x1080 下做真正的 GUI 接地(grounding),匹配生产约束",
"无障碍 API 会泄露 PII",
"截图成本更低"
],
"correct": 1,
"explanation": "截图驱动的评估迫使「像素到元素」的接地,这正是真实的生产约束。"
},
{
"stage": "check",
"question": "OSWorld 暴露了哪两种主要的失败模式?",
"options": [
"延迟和带宽",
"GUI 接地和操作性知识",
"embedding 漂移和 token 泄露",
"幻觉和拒答"
],
"correct": 1,
"explanation": "接地(像素到元素)和操作性知识(菜单、快捷键)是头号拦路虎。"
},
{
"stage": "check",
"question": "OSWorld-Human 在基础基准之上增加了什么?",
"options": [
"更多任务",
"人工筛选的黄金动作轨迹,暴露出 agent 1.4-2.7 倍的步骤低效差距",
"更大的屏幕分辨率",
"一个新的操作系统"
],
"correct": 1,
"explanation": "黄金轨迹使轨迹效率可衡量,而不只是成功率。"
},
{
"stage": "check",
"question": "本课引用了 WebArena 的哪个发布时数字?",
"options": [
"最佳 GPT-4 agent 成功率 14.41%,对比人类 78.24%",
"最佳 agent 99%,人类 100%",
"最佳 agent 50%,人类 50%",
"最佳 agent 全面 0%"
],
"correct": 0,
"explanation": "14.41% 对 78.24% 的差距是 WebArena 的发布时数字。"
},
{
"stage": "post",
"question": "本课警告,当 agent 使用 DOM 或无障碍 API 时,仅截图评估会发生什么?",
"options": [
"没有变化",
"你会错过 OSWorld 旨在衡量的接地挑战",
"你超出限流",
"测试轻易就通过"
],
"correct": 1,
"explanation": "在仅截图的基准上评估一个用无障碍 API 的 agent,会跳过接地测试。"
},
{
"stage": "post",
"question": "为什么忽略轨迹长度是一个基准测试上的失误?",
"options": [
"它掩盖了仅看成功率会遗漏的成本和低效(OSWorld-Human 暴露的 1.4-2.7 倍差距)",
"轨迹长度总是与黄金轨迹一致",
"轨迹不可衡量",
"长度是唯一重要的指标"
],
"correct": 0,
"explanation": "两个都达到 60% 成功率的 agent,步数可能相差 2-3 倍;成本和效率只有衡量轨迹长度才显现。"
}
]
}