ai-engineering-from-scratch-zh/phases/01-math-foundations/09-information-theory/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "在信息论中，“熵”衡量什么？",
      "options": [
        "一个物理系统的能量",
        "一个概率分布中的平均意外程度或不确定性",
        "一条二进制消息中的比特数",
        "一个通信信道的错误率"
      ],
      "correct": 1,
      "explanation": "熵 H(P) = -sum(p(x) * log(p(x))) 衡量所有结果的平均意外程度。高熵意味着高不确定性（均匀分布）。低熵意味着结果可预测。"
    },
    {
      "stage": "pre",
      "question": "交叉熵损失在神经网络中通常用于什么？",
      "options": [
        "输出连续值的回归任务",
        "分类任务，衡量预测概率与真实标签之间的差距",
        "生成新的数据样本",
        "对模型权重进行正则化以防止过拟合"
      ],
      "correct": 1,
      "explanation": "交叉熵损失 H(P,Q) = -sum(p(x)*log(q(x))) 衡量真实分布（标签）与模型预测分布之间的差异。它是分类任务的标准损失函数。"
    },
    {
      "stage": "post",
      "question": "为什么在训练中最小化交叉熵等价于最小化 KL 散度？",
      "options": [
        "因为 KL 散度在训练中始终为零",
        "因为交叉熵 = 熵 + KL 散度，而真实标签的熵是常数，所以最小化交叉熵就是最小化 KL 散度",
        "因为交叉熵和 KL 散度是同一个公式",
        "因为模型的熵在收敛时等于零"
      ],
      "correct": 1,
      "explanation": "H(P,Q) = H(P) + D_KL(P||Q)。由于真实分布 P 在训练中不变，H(P) 是常数。最小化 H(P,Q) 等同于最小化 D_KL(P||Q)——把模型推向真实分布。"
    },
    {
      "stage": "post",
      "question": "一个语言模型在测试集上的困惑度（perplexity）为 50。这意味着什么？",
      "options": [
        "模型每句话出 50 个错误",
        "平均而言，模型的不确定性相当于在每一步从 50 个可能的下一个 token 中均匀选择",
        "模型有 50 层",
        "模型训练了 50 个 epoch"
      ],
      "correct": 1,
      "explanation": "困惑度 = e^(交叉熵)。困惑度为 50 意味着模型在每个 token 处的不确定性相当于从 50 个等可能选项中随机挑选。困惑度越低，预测越好。"
    },
    {
      "stage": "post",
      "question": "在特征选择中，互信息与皮尔逊相关系数有何不同？",
      "options": [
        "互信息计算更快",
        "互信息能检测任何统计依赖关系（线性或非线性），而相关系数只能检测线性关系",
        "皮尔逊相关系数适用于任何数据类型，而互信息只适用于连续数据",
        "它们总是给出相同的特征排序"
      ],
      "correct": 1,
      "explanation": "互信息 I(X;Y) 捕捉变量之间所有的统计依赖关系，包括非线性和非单调的关系。皮尔逊相关系数只衡量线性相关，会遗漏许多重要关系。"
    }
  ]
}