ai-engineering-from-scratch-zh/phases/02-ml-fundamentals/18-feature-selection/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
[
  {
    "id": "featsel-pre-1",
    "stage": "pre",
    "question": "为什么增加更多特征反而可能让模型表现更差？",
    "options": [
      "更多特征总能提升模型准确率",
      "无关特征会增加噪声、加大过拟合风险，并稀释有用特征带来的信号",
      "模型对其能接受的特征数量有硬性上限",
      "更多特征会让模型耗尽内存"
    ],
    "correct": 1,
    "explanation": "无关特征给了模型在训练数据噪声上过拟合的机会。它们增加了维度，使数据更稀疏、距离更没有意义（维度灾难）。"
  },
  {
    "id": "featsel-pre-2",
    "stage": "pre",
    "question": "过滤式（filter）和包裹式（wrapper）特征选择方法的关键区别是什么？",
    "options": [
      "过滤式方法用模型评估特征；包裹式方法用统计量",
      "过滤式方法用统计量为特征打分而不依赖模型；包裹式方法训练一个模型来评估特征子集",
      "过滤式方法总是比包裹式方法更准确",
      "包裹式方法一次只能选择一个特征"
    ],
    "correct": 1,
    "explanation": "过滤式方法（方差阈值、互信息、相关性）用统计度量为特征打分。包裹式方法（RFE、前向选择）反复训练模型来评估不同的特征子集。"
  },
  {
    "id": "featsel-post-1",
    "stage": "post",
    "question": "互信息能检测出皮尔逊相关系数无法检测的关系。是哪种？",
    "options": [
      "连续特征之间的线性关系",
      "非线性关系，例如二次或周期性依赖",
      "仅限类别特征之间的关系",
      "需要超过 1000 个数据点的关系"
    ],
    "correct": 1,
    "explanation": "皮尔逊相关系数只衡量线性相关。二次关系（y = x^2）的相关系数为零，但互信息很高。互信息捕捉变量之间任何形式的统计依赖。"
  },
  {
    "id": "featsel-post-2",
    "stage": "post",
    "question": "L1（Lasso）正则化在训练过程中就完成了特征选择。它是如何做到的？",
    "options": [
      "它在训练开始前移除低方差的特征",
      "它把无关特征的权重逼到恰好为零，从而有效地把它们从模型中剔除",
      "它按特征与目标的相关性对特征排序",
      "它为每个特征训练单独的模型"
    ],
    "correct": 1,
    "explanation": "L1 正则化在损失中加入 |w| 惩罚。L1 约束的几何形状（菱形）使一些权重解恰好落在零点，从而产生自动进行特征选择的稀疏模型。"
  },
  {
    "id": "featsel-post-3",
    "stage": "post",
    "question": "RFE 移除最不重要的特征然后重新训练。为什么这比一次性移除所有低重要性特征更好？",
    "options": [
      "它并不更好——一次性全部移除总是更可取",
      "特征重要性会随着特征被移除而改变，因此迭代式移除考虑了特征之间的相互作用",
      "RFE 使用了与单步移除不同的重要性度量",
      "逐个移除只在神经网络中才有必要"
    ],
    "correct": 1,
    "explanation": "特征重要性是相对的。当一个相关特征被移除时，与它对应的特征的重要性可能上升。迭代式移除让模型在每一步重新评估重要性，从而捕捉这些相互作用。"
  }
]