-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
64 lines (64 loc) · 3.06 KB
/
Copy pathquiz.json
File metadata and controls
64 lines (64 loc) · 3.06 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
"questions": [
{
"stage": "pre",
"question": "在假设检验中,p 值为 0.03 意味着什么?",
"options": [
"原假设为真的概率是 3%",
"如果原假设为真,看到如此极端数据的概率是 3%",
"模型提升了 3%",
"97% 的数据支持备择假设"
],
"correct": 1,
"explanation": "p 值是在原假设为真的前提下,观察到与你所得数据一样极端的数据的概率。它不是原假设 H0 为真的概率——这是统计学中最常见的单一误解。"
},
{
"stage": "pre",
"question": "计算样本方差时为什么要除以 (n-1) 而不是 n?",
"options": [
"这样计算更快",
"它修正了样本均值并非真实总体均值这一事实(贝塞尔校正)",
"它把方差转换为标准差",
"它只在样本量为奇数时适用"
],
"correct": 1,
"explanation": "贝塞尔校正(除以 n-1)补偿了因使用样本均值而非真实总体均值所引入的偏差。没有它,样本方差会系统性地低估真实的总体方差。"
},
{
"stage": "post",
"question": "你在 alpha = 0.05 的水平上测试了 20 种不同的模型配置。至少出现一次假阳性的概率大约是多少?",
"options": [
"5%",
"25%",
"64%",
"95%"
],
"correct": 2,
"explanation": "P(至少一次假阳性) = 1 - (1 - 0.05)^20 = 1 - 0.95^20 ≈ 0.64(64%)。这就是多重比较问题。Bonferroni 校正通过将每次检验的水平设为 alpha/20 = 0.0025 来解决它。"
},
{
"stage": "post",
"question": "在 100 万个测试样本上,模型 A 得分 0.9234,模型 B 得分 0.9237,p 值 = 0.001。你应该得出什么结论?",
"options": [
"模型 B 显著更好,应立即部署",
"该差异在统计上显著,但 0.03% 的提升可能在实践上并不显著",
"该检验无效,因为样本量太大",
"模型 A 更好,因为它先被测试"
],
"correct": 1,
"explanation": "有 100 万个样本时,即使微不足道的差异也会变得统计显著。p 值确认了差异是真实的,但效应量(0.03% 的准确率提升)可能不足以证明部署的工程成本是值得的。务必同时报告 p 值和效应量。"
},
{
"stage": "post",
"question": "在比较两个 ML 模型时,自助法(bootstrap)相比配对 t 检验有什么优势?",
"options": [
"自助法总是产生更小的 p 值",
"自助法不需要任何分布假设,且适用于任何指标(AUC、F1、中位数)",
"自助法需要更少的样本就能达到显著性",
"自助法只能用于神经网络"
],
"correct": 1,
"explanation": "自助重采样通过有放回地重采样来估计任意统计量的抽样分布。与 t 检验不同,它不假设正态性。它适用于任何指标——AUC、F1、precision@k、中位数——无需封闭形式的公式。"
}
]
}