-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
78 lines (78 loc) · 3.36 KB
/
Copy pathquiz.json
File metadata and controls
78 lines (78 loc) · 3.36 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
"lesson": "53-result-evaluator",
"title": "顶点课 53 —— 结果评估器",
"questions": [
{
"stage": "pre",
"question": "为什么评估器用配对 t 检验而不是直接比较两个单一数值?",
"options": [
"因为 numpy 要求配对数组",
"因为按相同种子配对可以消除随机初始化噪声,隔离出配置变更带来的差异",
"因为 runner 无法输出单个数值",
"因为 IRB 总是要求 t 检验"
],
"correct": 1,
"explanation": "按种子配对消除了随机初始化的影响。剩余的差异可以归因于配置变更,这正是检验要测量的。"
},
{
"stage": "pre",
"question": "为什么评估器给每个指标都带一个 direction 字段?",
"options": [
"因为 accuracy 和 loss 方向相反;改进的正负号取决于被比较指标的哪个方向更好",
"因为 runner 要求它",
"因为 numpy 计算方差需要方向",
"因为解析器期望有这个字段"
],
"correct": 0,
"explanation": "越高越好的指标上升才是改进;越低越好的指标下降才是改进。direction 字段告诉改进函数应用哪种符号约定。"
},
{
"stage": "check",
"question": "当改进幅度的绝对值低于阈值、即使 p 值是显著的,判定路径返回什么?",
"options": [
"improved",
"regressed",
"noise",
"failed"
],
"correct": 2,
"explanation": "统计上显著但太小而不值得行动的变化,在循环看来仍然是噪声。阈值门先于显著性门检查。"
},
{
"stage": "check",
"question": "为什么评估器在计算改进前要对 log 尺度指标做变换?",
"options": [
"因为 numpy 的 log 运算更快",
"因为 perplexity 等指标随 loss 呈指数增长;变换到 log 空间后,百分之二这样的阈值在线性和 log 指标之间才有可比性",
"因为 p 值依赖于它",
"因为 runner 只输出 log 尺度指标"
],
"correct": 1,
"explanation": "Perplexity 是 exp(loss)。一个很小的 loss 变化对应很大的 perplexity 变化。取 log 让相对改进在同一个阈值下与线性指标可比。"
},
{
"stage": "check",
"question": "配对 t 检验辅助函数在什么时候返回 p_value = None?",
"options": [
"当均值相等时",
"当可用的配对样本少于两个时",
"当方差为零时",
"当指标尺度是 log 时"
],
"correct": 1,
"explanation": "t 分布至少需要一个自由度。当 n 小于 2 时没有方差估计,辅助函数返回 None,让判定路径将该运行标记为 noise。"
},
{
"stage": "check",
"question": "如果哪怕一个候选结果的终态标签不是 ok,会怎样?",
"options": [
"评估器丢弃该种子然后继续",
"评估器返回 failed 判定,并在理由中记录有问题的终态",
"评估器重新运行",
"评估器退回到单侧检验"
],
"correct": 1,
"explanation": "失败的运行使整个候选集无效。评估器在判定路径中短路,返回 failed 并列出有问题的终态,这样编排器就不会从一次崩溃的运行中得出结论。"
}
]
}