-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
64 lines (64 loc) · 3 KB
/
Copy pathquiz.json
File metadata and controls
64 lines (64 loc) · 3 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
"questions": [
{
"stage": "pre",
"question": "在信息论中,“熵”衡量什么?",
"options": [
"一个物理系统的能量",
"一个概率分布中的平均意外程度或不确定性",
"一条二进制消息中的比特数",
"一个通信信道的错误率"
],
"correct": 1,
"explanation": "熵 H(P) = -sum(p(x) * log(p(x))) 衡量所有结果的平均意外程度。高熵意味着高不确定性(均匀分布)。低熵意味着结果可预测。"
},
{
"stage": "pre",
"question": "交叉熵损失在神经网络中通常用于什么?",
"options": [
"输出连续值的回归任务",
"分类任务,衡量预测概率与真实标签之间的差距",
"生成新的数据样本",
"对模型权重进行正则化以防止过拟合"
],
"correct": 1,
"explanation": "交叉熵损失 H(P,Q) = -sum(p(x)*log(q(x))) 衡量真实分布(标签)与模型预测分布之间的差异。它是分类任务的标准损失函数。"
},
{
"stage": "post",
"question": "为什么在训练中最小化交叉熵等价于最小化 KL 散度?",
"options": [
"因为 KL 散度在训练中始终为零",
"因为交叉熵 = 熵 + KL 散度,而真实标签的熵是常数,所以最小化交叉熵就是最小化 KL 散度",
"因为交叉熵和 KL 散度是同一个公式",
"因为模型的熵在收敛时等于零"
],
"correct": 1,
"explanation": "H(P,Q) = H(P) + D_KL(P||Q)。由于真实分布 P 在训练中不变,H(P) 是常数。最小化 H(P,Q) 等同于最小化 D_KL(P||Q)——把模型推向真实分布。"
},
{
"stage": "post",
"question": "一个语言模型在测试集上的困惑度(perplexity)为 50。这意味着什么?",
"options": [
"模型每句话出 50 个错误",
"平均而言,模型的不确定性相当于在每一步从 50 个可能的下一个 token 中均匀选择",
"模型有 50 层",
"模型训练了 50 个 epoch"
],
"correct": 1,
"explanation": "困惑度 = e^(交叉熵)。困惑度为 50 意味着模型在每个 token 处的不确定性相当于从 50 个等可能选项中随机挑选。困惑度越低,预测越好。"
},
{
"stage": "post",
"question": "在特征选择中,互信息与皮尔逊相关系数有何不同?",
"options": [
"互信息计算更快",
"互信息能检测任何统计依赖关系(线性或非线性),而相关系数只能检测线性关系",
"皮尔逊相关系数适用于任何数据类型,而互信息只适用于连续数据",
"它们总是给出相同的特征排序"
],
"correct": 1,
"explanation": "互信息 I(X;Y) 捕捉变量之间所有的统计依赖关系,包括非线性和非单调的关系。皮尔逊相关系数只衡量线性相关,会遗漏许多重要关系。"
}
]
}