ai-engineering-from-scratch-zh/phases/19-capstone-projects/74-leaderboard-aggregation/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
{
  "lesson": "74-leaderboard-aggregation",
  "title": "顶点课 74 —— leaderboard 聚合",
  "questions": [
    {
      "stage": "pre",
      "question": "为什么聚合器要求每个输入分数都落在 [0, 1] 区间？",
      "options": [
        "这是 ECE 的 bin 范围",
        "没有统一的尺度，某个范围在 0-100 的 metric 就会主导每个模型的均值",
        "Numpy 要求如此",
        "Markdown 渲染期望两位小数"
      ],
      "correct": 1,
      "explanation": "如果通过率在 [0,1]、BLEU 在 [0,100]，后者会把均值压垮。归一化应当在 metric 层完成，并在这里做检查。"
    },
    {
      "stage": "pre",
      "question": "均值分数隐藏了哪些信息，而 win-rate 能暴露出来？",
      "options": [
        "模型是否校准良好",
        "逐任务的胜场能抗住离群点和尺度漂移；均值对两者都敏感",
        "完成的任务数量",
        "bootstrap 区间"
      ],
      "correct": 1,
      "explanation": "win-rate 一项项数任务的胜场。一个模型可能靠一道简单任务拿到高均值，却在大多数两两比较里都输。"
    },
    {
      "stage": "check",
      "question": "bootstrap_mean_ci 是如何估计置信区间的？",
      "options": [
        "假定均值服从正态分布",
        "对任务分数有放回地重采样，对每个采样算均值，再取 alpha/2 和 1 - alpha/2 的百分位",
        "用解析方式算标准差",
        "调用 scipy.stats.bootstrap"
      ],
      "correct": 1,
      "explanation": "对逐任务分数做非参数百分位 bootstrap；不做分布假设，不用 scipy。"
    },
    {
      "stage": "check",
      "question": "两两差值的 CI 在什么时候报告 `significant`？",
      "options": [
        "当 CI 不包含零时",
        "当均值差大于 0.1 时",
        "当两个模型都有超过三十个任务时",
        "当两者 win-rate 不相等时"
      ],
      "correct": 0,
      "explanation": "一个严格不含零的 CI 意味着在所选水平下差异不太可能为零；这就是本课采用的可操作定义。"
    },
    {
      "stage": "check",
      "question": "为什么两两 bootstrap 是配对（paired）的，而不是独立的？",
      "options": [
        "独立 bootstrap 在 Python 里非法",
        "配对 bootstrap 尊重「同一个任务同时喂给两个模型」这一点；差值是在重采样之前逐任务算出来的",
        "配对 bootstrap 跑得更快",
        "配对 bootstrap 是 numpy 唯一支持的"
      ],
      "correct": 1,
      "explanation": "配对 bootstrap 能降噪：我们是在任务上采样，而不是在模型上采样，所以每一轮迭代比较的都是同一套任务集。"
    },
    {
      "stage": "post",
      "question": "为什么聚合器在给出头条数字的同时，还要返回各 category 的均值？",
      "options": [
        "JSON Schema 要求如此",
        "头条均值可能掩盖某个 category 上的弱点（整体好、代码差）；分 category 能把这暴露出来",
        "分 category 的均值比整体均值跑得更快",
        "Markdown 渲染需要它"
      ],
      "correct": 1,
      "explanation": "一个模型在总分上胜出，可能是因为处处都还行，也可能是因为在某个 category 上碾压。分 category 拆解能让消费者看清是哪一种。"
    }
  ]
}