ai-engineering-from-scratch-zh/phases/01-math-foundations/06-probability-and-distributions/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "概率质量函数（PMF）和概率密度函数（PDF）之间有什么区别？",
      "options": [
        "PMF 用于连续变量，PDF 用于离散变量",
        "PMF 给出离散结果的精确概率，而 PDF 给出连续变量的密度，必须在一个区间上积分才能得到概率",
        "没有区别；它们是同一个概念的不同名称",
        "PMF 总和恒为 0.5，PDF 积分为 1"
      ],
      "correct": 1,
      "explanation": "对于离散变量，PMF 直接给出 P(X=k)。对于连续变量，PDF f(x) 是一种密度——P(a<=X<=b) 需要把 f(x) 从 a 到 b 积分。单个点处的密度并不是概率。"
    },
    {
      "stage": "pre",
      "question": "中心极限定理陈述了什么？",
      "options": [
        "所有数据都服从正态分布",
        "无论原始分布如何，大量独立随机样本的均值都会收敛到正态分布",
        "大数据集总是具有低方差",
        "罕见事件的概率随样本量增大而减小"
      ],
      "correct": 1,
      "explanation": "中心极限定理指出，无论原始分布是什么样子，大量独立随机变量的平均值都会趋近于高斯分布。这解释了为什么正态分布无处不在。"
    },
    {
      "stage": "post",
      "question": "为什么 softmax 在取指数之前要减去最大的 logit（即“softmax 技巧”）？",
      "options": [
        "为了让所有概率相等",
        "为了防止对大数取指数造成数值溢出，同时产生数学上完全相同的结果",
        "为了把 logits 归一化为均值为零",
        "为了通过减少取指数的次数来加快计算"
      ],
      "correct": 1,
      "explanation": "exp(100) 会溢出为无穷大。减去 max(logits) 会把所有值平移，使最大值为 0。exp(0)=1 是安全的。这个减法在归一化中会被抵消，从而给出完全相同的概率。"
    },
    {
      "stage": "post",
      "question": "分类的交叉熵损失可化简为 -log(q(true_class))。这在直觉上意味着什么？",
      "options": [
        "把预测概率乘以真实标签",
        "根据模型对正确类别预测概率的低程度来惩罚它——预测越低，损失越高",
        "对所有类别的对数概率取平均",
        "计算真实分布的熵"
      ],
      "correct": 1,
      "explanation": "如果模型对正确类别预测 0.9，损失 = -log(0.9) = 0.105（低）。如果预测 0.01，损失 = -log(0.01) = 4.6（高）。该损失会惩罚对正确答案信心不足的情况。"
    },
    {
      "stage": "post",
      "question": "为什么语言模型使用对数概率而不是原始概率？",
      "options": [
        "对数概率在视觉上更易解读",
        "将许多小概率相乘会造成数值下溢为零；对数概率把乘积转换为求和，从而避免这一问题",
        "transformer 架构要求使用对数概率",
        "原始概率无法表示小于 0.01 的值"
      ],
      "correct": 1,
      "explanation": "P(句子) = P(词1) * P(词2) * ... 在 float64 下很快会下溢为 0.0。log P(句子) = log P(词1) + log P(词2) + ... 则保持在有限范围内。乘积变成了求和。"
    }
  ]
}