-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
78 lines (78 loc) · 3.38 KB
/
Copy pathquiz.json
File metadata and controls
78 lines (78 loc) · 3.38 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
"lesson": "74-leaderboard-aggregation",
"title": "顶点课 74 —— leaderboard 聚合",
"questions": [
{
"stage": "pre",
"question": "为什么聚合器要求每个输入分数都落在 [0, 1] 区间?",
"options": [
"这是 ECE 的 bin 范围",
"没有统一的尺度,某个范围在 0-100 的 metric 就会主导每个模型的均值",
"Numpy 要求如此",
"Markdown 渲染期望两位小数"
],
"correct": 1,
"explanation": "如果通过率在 [0,1]、BLEU 在 [0,100],后者会把均值压垮。归一化应当在 metric 层完成,并在这里做检查。"
},
{
"stage": "pre",
"question": "均值分数隐藏了哪些信息,而 win-rate 能暴露出来?",
"options": [
"模型是否校准良好",
"逐任务的胜场能抗住离群点和尺度漂移;均值对两者都敏感",
"完成的任务数量",
"bootstrap 区间"
],
"correct": 1,
"explanation": "win-rate 一项项数任务的胜场。一个模型可能靠一道简单任务拿到高均值,却在大多数两两比较里都输。"
},
{
"stage": "check",
"question": "bootstrap_mean_ci 是如何估计置信区间的?",
"options": [
"假定均值服从正态分布",
"对任务分数有放回地重采样,对每个采样算均值,再取 alpha/2 和 1 - alpha/2 的百分位",
"用解析方式算标准差",
"调用 scipy.stats.bootstrap"
],
"correct": 1,
"explanation": "对逐任务分数做非参数百分位 bootstrap;不做分布假设,不用 scipy。"
},
{
"stage": "check",
"question": "两两差值的 CI 在什么时候报告 `significant`?",
"options": [
"当 CI 不包含零时",
"当均值差大于 0.1 时",
"当两个模型都有超过三十个任务时",
"当两者 win-rate 不相等时"
],
"correct": 0,
"explanation": "一个严格不含零的 CI 意味着在所选水平下差异不太可能为零;这就是本课采用的可操作定义。"
},
{
"stage": "check",
"question": "为什么两两 bootstrap 是配对(paired)的,而不是独立的?",
"options": [
"独立 bootstrap 在 Python 里非法",
"配对 bootstrap 尊重「同一个任务同时喂给两个模型」这一点;差值是在重采样之前逐任务算出来的",
"配对 bootstrap 跑得更快",
"配对 bootstrap 是 numpy 唯一支持的"
],
"correct": 1,
"explanation": "配对 bootstrap 能降噪:我们是在任务上采样,而不是在模型上采样,所以每一轮迭代比较的都是同一套任务集。"
},
{
"stage": "post",
"question": "为什么聚合器在给出头条数字的同时,还要返回各 category 的均值?",
"options": [
"JSON Schema 要求如此",
"头条均值可能掩盖某个 category 上的弱点(整体好、代码差);分 category 能把这暴露出来",
"分 category 的均值比整体均值跑得更快",
"Markdown 渲染需要它"
],
"correct": 1,
"explanation": "一个模型在总分上胜出,可能是因为处处都还行,也可能是因为在某个 category 上碾压。分 category 拆解能让消费者看清是哪一种。"
}
]
}