ai-engineering-from-scratch-zh/phases/02-ml-fundamentals/08-feature-engineering/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
[
  {
    "id": "feateng-pre-1",
    "stage": "pre",
    "question": "为什么特征工程往往比选择一个更花哨的算法更有影响力？",
    "options": [
      "特征工程让代码运行更快",
      "好的特征向模型暴露出原始数据所隐藏的模式，使即便是简单模型也能奏效",
      "特征工程消除了对测试集的需要",
      "花哨的算法无法处理原始数据"
    ],
    "correct": 1,
    "explanation": "数据的表示方式比算法更重要。像 BMI（体重/身高^2）这样精心设计的特征直接暴露出相关模式，使得即便是逻辑回归也能与复杂的集成方法相媲美。"
  },
  {
    "id": "feateng-pre-2",
    "stage": "pre",
    "question": "什么是独热编码（one-hot encoding）？",
    "options": [
      "用每个类别在数据集中的频率替换该类别",
      "为每个类别创建一个二值列，每行恰好有一列被置为 1",
      "把所有特征转换为 0 到 1 之间的值",
      "把目标变量编码为概率"
    ],
    "correct": 1,
    "explanation": "独热编码为每个唯一类别创建一个二值列。对于取值为红/蓝/绿的颜色特征，它会产生三列：is_red、is_blue、is_green。"
  },
  {
    "id": "feateng-post-1",
    "stage": "post",
    "question": "目标编码存在什么数据泄漏风险？",
    "options": [
      "它使模型训练太慢",
      "它用目标均值替换类别，如果不只在训练数据上计算，就可能从测试集泄漏信息",
      "它创建过多特征",
      "它只对二元目标有效"
    ],
    "correct": 1,
    "explanation": "目标编码用每个类别的目标均值替换该类别。如果在整个数据集（包括测试数据）上计算，测试标签就会泄漏进训练特征，从而虚高性能估计。"
  },
  {
    "id": "feateng-post-2",
    "stage": "post",
    "question": "TF-IDF 用逆文档频率为词加权。这有什么效果？",
    "options": [
      "像 'the' 这样的常见词因为出现频繁而获得高权重",
      "罕见、有区分度的词获得更高权重，而常见词获得更低权重",
      "无论频率如何，所有词都获得相同权重",
      "每篇文档只保留出现频率最高的词"
    ],
    "correct": 1,
    "explanation": "IDF = log(总文档数 / 包含该词的文档数)。常见词（出现在许多文档中）的 IDF 低。罕见、有区分度的词 IDF 高，使它们在表示中更具影响力。"
  },
  {
    "id": "feateng-post-3",
    "stage": "post",
    "question": "你有两个相关系数为 0.98 的特征。为什么你可能会移除其中一个？",
    "options": [
      "高度相关的特征总会导致模型崩溃",
      "它们是冗余的——两者携带几乎相同的信息，同时保留两者会增加过拟合风险而不增添信号",
      "相关特征会使数据变得非平稳",
      "相关系数高于 0.5 意味着这些特征在测量不同的东西"
    ],
    "correct": 1,
    "explanation": "相关系数 r=0.98 的特征几乎是冗余的。同时保留两者相当于增加了一个带噪声的副本，增加了维度、过拟合风险和多重共线性，却没有提供关于目标的新信息。"
  }
]