-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
64 lines (64 loc) · 3.23 KB
/
Copy pathquiz.json
File metadata and controls
64 lines (64 loc) · 3.23 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
"questions": [
{
"stage": "pre",
"question": "概率质量函数(PMF)和概率密度函数(PDF)之间有什么区别?",
"options": [
"PMF 用于连续变量,PDF 用于离散变量",
"PMF 给出离散结果的精确概率,而 PDF 给出连续变量的密度,必须在一个区间上积分才能得到概率",
"没有区别;它们是同一个概念的不同名称",
"PMF 总和恒为 0.5,PDF 积分为 1"
],
"correct": 1,
"explanation": "对于离散变量,PMF 直接给出 P(X=k)。对于连续变量,PDF f(x) 是一种密度——P(a<=X<=b) 需要把 f(x) 从 a 到 b 积分。单个点处的密度并不是概率。"
},
{
"stage": "pre",
"question": "中心极限定理陈述了什么?",
"options": [
"所有数据都服从正态分布",
"无论原始分布如何,大量独立随机样本的均值都会收敛到正态分布",
"大数据集总是具有低方差",
"罕见事件的概率随样本量增大而减小"
],
"correct": 1,
"explanation": "中心极限定理指出,无论原始分布是什么样子,大量独立随机变量的平均值都会趋近于高斯分布。这解释了为什么正态分布无处不在。"
},
{
"stage": "post",
"question": "为什么 softmax 在取指数之前要减去最大的 logit(即“softmax 技巧”)?",
"options": [
"为了让所有概率相等",
"为了防止对大数取指数造成数值溢出,同时产生数学上完全相同的结果",
"为了把 logits 归一化为均值为零",
"为了通过减少取指数的次数来加快计算"
],
"correct": 1,
"explanation": "exp(100) 会溢出为无穷大。减去 max(logits) 会把所有值平移,使最大值为 0。exp(0)=1 是安全的。这个减法在归一化中会被抵消,从而给出完全相同的概率。"
},
{
"stage": "post",
"question": "分类的交叉熵损失可化简为 -log(q(true_class))。这在直觉上意味着什么?",
"options": [
"把预测概率乘以真实标签",
"根据模型对正确类别预测概率的低程度来惩罚它——预测越低,损失越高",
"对所有类别的对数概率取平均",
"计算真实分布的熵"
],
"correct": 1,
"explanation": "如果模型对正确类别预测 0.9,损失 = -log(0.9) = 0.105(低)。如果预测 0.01,损失 = -log(0.01) = 4.6(高)。该损失会惩罚对正确答案信心不足的情况。"
},
{
"stage": "post",
"question": "为什么语言模型使用对数概率而不是原始概率?",
"options": [
"对数概率在视觉上更易解读",
"将许多小概率相乘会造成数值下溢为零;对数概率把乘积转换为求和,从而避免这一问题",
"transformer 架构要求使用对数概率",
"原始概率无法表示小于 0.01 的值"
],
"correct": 1,
"explanation": "P(句子) = P(词1) * P(词2) * ... 在 float64 下很快会下溢为 0.0。log P(句子) = log P(词1) + log P(词2) + ... 则保持在有限范围内。乘积变成了求和。"
}
]
}