ai-engineering-from-scratch-zh/phases/19-capstone-projects/05-autonomous-research-agent/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
{
  "lesson": "05-autonomous-research-agent",
  "title": "毕业项目 05 —— 自主研究 agent（AI-Scientist 类）",
  "questions": [
    {
      "stage": "pre",
      "question": "AI-Scientist 类 agent 用哪种搜索形态来探索实验？",
      "options": [
        "在 token 输出上做束搜索（beam search）",
        "在实验节点上做最佳优先（best-first）树搜索，评分为「新颖性 × 质量 × 预算」",
        "纯粹的人类反馈强化学习",
        "带随机评分的广度优先扩展"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "pre",
      "question": "为什么沙箱要配置成 --network=none 并设有限的资源上限？",
      "options": [
        "为了迫使 agent 使用 prompt 缓存",
        "为了强制确定性的浮点运算",
        "为了默认允许 GPU 直通",
        "为了阻止网络出站，并把实验副作用约束在一个可复现的封套内"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "在写作循环中，视觉批判（vision critique）步骤的作用是什么？",
      "options": [
        "把图表翻译成柱状图",
        "把 LaTeX 草稿编译成 PDF，再让 VLM 批判排版、图表可读性以及论断与证据的一致性",
        "从截图中生成新的实验想法",
        "在渲染时替换 matplotlib"
      ],
      "correct": 1,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "评审者集成（reviewer ensemble）如何对流水线设门禁？",
      "options": [
        "单一裁判按二元标志接受或拒绝",
        "评审者匿名投票，多数获胜",
        "评审只在发表后运行",
        "五位裁判按 NeurIPS 式细则打分，加权汇总必须越过阈值，否则草稿循环回到写作环节"
      ],
      "correct": 3,
      "explanation": ""
    },
    {
      "stage": "check",
      "question": "本毕业项目对每篇论文执行哪种成本纪律？",
      "options": [
        "30 美元的硬预算，通过 Langfuse 计数器和运行前估算来追踪",
        "只优化成本而不做质量检查",
        "无界算力，仅以挂钟时间为限",
        "追踪 GPU 小时数但从不设上限"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "哪个评分函数为树节点的进一步扩展排序？",
      "options": [
        "新颖性 × 质量 × 剩余预算",
        "相关论文的引用数",
        "随机均匀优先级",
        "输出长度和 token 数"
      ],
      "correct": 0,
      "explanation": ""
    },
    {
      "stage": "post",
      "question": "红队报告针对该系统演练什么？",
      "options": [
        "系统提示上的缓存命中率",
        "向量数据库中的多租户数据泄露",
        "丢包下的延迟长尾",
        "沙箱逃逸尝试，如 fork 炸弹、网络外泄和文件系统逃逸"
      ],
      "correct": 3,
      "explanation": ""
    }
  ]
}