ai-engineering-from-scratch-zh/phases/01-math-foundations/15-statistics-for-ml/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "在假设检验中，p 值为 0.03 意味着什么？",
      "options": [
        "原假设为真的概率是 3%",
        "如果原假设为真，看到如此极端数据的概率是 3%",
        "模型提升了 3%",
        "97% 的数据支持备择假设"
      ],
      "correct": 1,
      "explanation": "p 值是在原假设为真的前提下，观察到与你所得数据一样极端的数据的概率。它不是原假设 H0 为真的概率——这是统计学中最常见的单一误解。"
    },
    {
      "stage": "pre",
      "question": "计算样本方差时为什么要除以 (n-1) 而不是 n？",
      "options": [
        "这样计算更快",
        "它修正了样本均值并非真实总体均值这一事实（贝塞尔校正）",
        "它把方差转换为标准差",
        "它只在样本量为奇数时适用"
      ],
      "correct": 1,
      "explanation": "贝塞尔校正（除以 n-1）补偿了因使用样本均值而非真实总体均值所引入的偏差。没有它，样本方差会系统性地低估真实的总体方差。"
    },
    {
      "stage": "post",
      "question": "你在 alpha = 0.05 的水平上测试了 20 种不同的模型配置。至少出现一次假阳性的概率大约是多少？",
      "options": [
        "5%",
        "25%",
        "64%",
        "95%"
      ],
      "correct": 2,
      "explanation": "P(至少一次假阳性) = 1 - (1 - 0.05)^20 = 1 - 0.95^20 ≈ 0.64（64%）。这就是多重比较问题。Bonferroni 校正通过将每次检验的水平设为 alpha/20 = 0.0025 来解决它。"
    },
    {
      "stage": "post",
      "question": "在 100 万个测试样本上，模型 A 得分 0.9234，模型 B 得分 0.9237，p 值 = 0.001。你应该得出什么结论？",
      "options": [
        "模型 B 显著更好，应立即部署",
        "该差异在统计上显著，但 0.03% 的提升可能在实践上并不显著",
        "该检验无效，因为样本量太大",
        "模型 A 更好，因为它先被测试"
      ],
      "correct": 1,
      "explanation": "有 100 万个样本时，即使微不足道的差异也会变得统计显著。p 值确认了差异是真实的，但效应量（0.03% 的准确率提升）可能不足以证明部署的工程成本是值得的。务必同时报告 p 值和效应量。"
    },
    {
      "stage": "post",
      "question": "在比较两个 ML 模型时，自助法（bootstrap）相比配对 t 检验有什么优势？",
      "options": [
        "自助法总是产生更小的 p 值",
        "自助法不需要任何分布假设，且适用于任何指标（AUC、F1、中位数）",
        "自助法需要更少的样本就能达到显著性",
        "自助法只能用于神经网络"
      ],
      "correct": 1,
      "explanation": "自助重采样通过有放回地重采样来估计任意统计量的抽样分布。与 t 检验不同，它不假设正态性。它适用于任何指标——AUC、F1、precision@k、中位数——无需封闭形式的公式。"
    }
  ]
}