-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
90 lines (90 loc) · 3.41 KB
/
Copy pathquiz.json
File metadata and controls
90 lines (90 loc) · 3.41 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
{
"lesson": "04-tree-of-thoughts-lats",
"title": "Tree of Thoughts 与 LATS:审慎搜索",
"questions": [
{
"stage": "pre",
"question": "为什么思维链在 Game of 24 上表现挣扎?",
"options": [
"模型无法做整数乘法",
"一次线性的推进在早期某步出错时无法回溯,于是后续步骤把错误层层放大",
"prompt 太短",
"CoT 需要一个 GPT-4 缺少的计算器工具"
],
"correct": 1,
"explanation": "没有分支,一个错误的早期子表达式会毒化后面的整条链;论文测得 CoT 只有 4%。"
},
{
"stage": "pre",
"question": "在 Tree of Thoughts 搜索中,一个节点是什么?",
"options": [
"模型产出的一个 token",
"一个连贯的中间步骤或想法,可有 K 个子扩展",
"微调期间的一次权重更新",
"向运行时注册的一个工具"
],
"correct": 1,
"explanation": "ToT 把推理当作一棵树,每个节点是一个可以扩展出 K 个子节点的中间想法。"
},
{
"stage": "check",
"question": "下列三者中哪一个不是 LATS 赋予 LLM 的角色?",
"options": [
"提出下一步行动的策略(policy)",
"给部分轨迹打分的价值函数(value function)",
"在失败时写下反思的自反思器(self-reflector)",
"在 rollout 之间更新模型权重的优化器(optimizer)"
],
"correct": 3,
"explanation": "LATS 是无梯度的;三个 LLM 角色是策略、价值和自反思器。不存在权重更新。"
},
{
"stage": "check",
"question": "说出本课列出的 MCTS 四个阶段。",
"options": [
"Sample、Score、Sort、Submit",
"Select、Expand、Simulate、Backpropagate",
"Plan、Execute、Reflect、Stop",
"Search、Synthesize、Synthesize-Again、Stop"
],
"correct": 1,
"explanation": "MCTS 每次迭代按 select、expand、simulate、backpropagate 进行。"
},
{
"stage": "check",
"question": "在 UCT 中,探索常数 c 的作用是什么?",
"options": [
"它缩放价值估计 Q",
"它在探索项 sqrt(ln N / n) 和利用项 Q 之间进行加权",
"它设置最大树深度",
"它控制 rollout 的数量"
],
"correct": 1,
"explanation": "c 在利用项(Q)和探索项之间取得平衡;按任务调优。"
},
{
"stage": "post",
"question": "相比单条轨迹,什么时候搜索是主动有害的?",
"options": [
"当评估器有噪声且只有唯一正确答案时,搜索会收敛到一个得分不错的错误答案",
"当任务涉及多个正确答案时",
"只要 token 便宜",
"当任务是代码生成时"
],
"correct": 0,
"explanation": "有噪声的价值函数加上唯一正确答案,正是搜索过拟合到噪声的情形。"
},
{
"stage": "post",
"question": "在 Game of 24 上,相比 CoT,你大致应该为 ToT 预留多少倍的 token 用量?",
"options": [
"约 2 倍",
"约 10 倍",
"100 到 1000 倍",
"比 CoT 更少,因为有剪枝"
],
"correct": 2,
"explanation": "本课引用 ToT 在 Game of 24 上相比 CoT 有 100-1000 倍的 token 成本。"
}
]
}