-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
67 lines (67 loc) · 3.28 KB
/
Copy pathquiz.json
File metadata and controls
67 lines (67 loc) · 3.28 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
[
{
"id": "featsel-pre-1",
"stage": "pre",
"question": "为什么增加更多特征反而可能让模型表现更差?",
"options": [
"更多特征总能提升模型准确率",
"无关特征会增加噪声、加大过拟合风险,并稀释有用特征带来的信号",
"模型对其能接受的特征数量有硬性上限",
"更多特征会让模型耗尽内存"
],
"correct": 1,
"explanation": "无关特征给了模型在训练数据噪声上过拟合的机会。它们增加了维度,使数据更稀疏、距离更没有意义(维度灾难)。"
},
{
"id": "featsel-pre-2",
"stage": "pre",
"question": "过滤式(filter)和包裹式(wrapper)特征选择方法的关键区别是什么?",
"options": [
"过滤式方法用模型评估特征;包裹式方法用统计量",
"过滤式方法用统计量为特征打分而不依赖模型;包裹式方法训练一个模型来评估特征子集",
"过滤式方法总是比包裹式方法更准确",
"包裹式方法一次只能选择一个特征"
],
"correct": 1,
"explanation": "过滤式方法(方差阈值、互信息、相关性)用统计度量为特征打分。包裹式方法(RFE、前向选择)反复训练模型来评估不同的特征子集。"
},
{
"id": "featsel-post-1",
"stage": "post",
"question": "互信息能检测出皮尔逊相关系数无法检测的关系。是哪种?",
"options": [
"连续特征之间的线性关系",
"非线性关系,例如二次或周期性依赖",
"仅限类别特征之间的关系",
"需要超过 1000 个数据点的关系"
],
"correct": 1,
"explanation": "皮尔逊相关系数只衡量线性相关。二次关系(y = x^2)的相关系数为零,但互信息很高。互信息捕捉变量之间任何形式的统计依赖。"
},
{
"id": "featsel-post-2",
"stage": "post",
"question": "L1(Lasso)正则化在训练过程中就完成了特征选择。它是如何做到的?",
"options": [
"它在训练开始前移除低方差的特征",
"它把无关特征的权重逼到恰好为零,从而有效地把它们从模型中剔除",
"它按特征与目标的相关性对特征排序",
"它为每个特征训练单独的模型"
],
"correct": 1,
"explanation": "L1 正则化在损失中加入 |w| 惩罚。L1 约束的几何形状(菱形)使一些权重解恰好落在零点,从而产生自动进行特征选择的稀疏模型。"
},
{
"id": "featsel-post-3",
"stage": "post",
"question": "RFE 移除最不重要的特征然后重新训练。为什么这比一次性移除所有低重要性特征更好?",
"options": [
"它并不更好——一次性全部移除总是更可取",
"特征重要性会随着特征被移除而改变,因此迭代式移除考虑了特征之间的相互作用",
"RFE 使用了与单步移除不同的重要性度量",
"逐个移除只在神经网络中才有必要"
],
"correct": 1,
"explanation": "特征重要性是相对的。当一个相关特征被移除时,与它对应的特征的重要性可能上升。迭代式移除让模型在每一步重新评估重要性,从而捕捉这些相互作用。"
}
]