ai-engineering-from-scratch-zh/phases/02-ml-fundamentals/06-knn-and-distances/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
[
  {
    "id": "knn-pre-1",
    "stage": "pre",
    "question": "KNN 被称为“惰性学习器”。这是什么意思？",
    "options": [
      "它在训练时收敛缓慢",
      "它在训练时不做任何计算，把所有计算都放到预测时进行",
      "它使用一个简化版的损失函数",
      "它只对小数据集有效"
    ],
    "correct": 1,
    "explanation": "惰性学习意味着 KNN 只存储训练数据，在“训练”期间不做任何工作。所有计算（距离计算、投票）都在请求预测时发生。"
  },
  {
    "id": "knn-pre-2",
    "stage": "pre",
    "question": "为什么特征缩放对 KNN 至关重要？",
    "options": [
      "不做缩放 KNN 就无法处理负数",
      "距离计算会被取值范围更大的特征主导，因此需要缩放以进行公平比较",
      "特征缩放减少所需的邻居数量",
      "KNN 使用梯度下降，需要归一化输入"
    ],
    "correct": 1,
    "explanation": "KNN 依赖距离。一个取值范围为 0-1000 的特征会在距离计算中主导取值范围为 0-1 的特征。缩放使所有特征处于可比的范围。"
  },
  {
    "id": "knn-post-1",
    "stage": "post",
    "question": "在 100 维空间中，对于均匀随机分布的点，最大距离与最小距离之比会怎样？",
    "options": [
      "它急剧增大，使邻居更易区分",
      "它趋近于 1，使所有点彼此几乎等距",
      "它与二维时保持相同",
      "由于数值溢出它变为负数"
    ],
    "correct": 1,
    "explanation": "这就是维度灾难。在高维中，距离会趋于一致：max_dist / min_dist 趋近于 1。当所有点都等距时，“最近”就失去了意义。"
  },
  {
    "id": "knn-post-2",
    "stage": "post",
    "question": "对于以 TF-IDF 向量表示的文本文档，哪种距离度量最合适？",
    "options": [
      "L2（欧氏）距离",
      "L1（曼哈顿）距离",
      "余弦距离",
      "切比雪夫距离"
    ],
    "correct": 2,
    "explanation": "余弦距离衡量向量之间的夹角，忽略模长。对于文本，文档长度（模长）属于噪声——方向才捕捉含义。在文本上余弦距离始终优于 L1/L2。"
  },
  {
    "id": "knn-post-3",
    "stage": "post",
    "question": "当 K 从 1 增大到 N（整个数据集大小）时，KNN 的决策边界会怎样？",
    "options": [
      "边界变得更复杂、更精细",
      "无论 K 如何，边界保持不变",
      "边界变得平滑，最终对每个点都预测多数类",
      "边界变成圆形"
    ],
    "correct": 2,
    "explanation": "K=1 会产生紧随每个点的锯齿状边界（过拟合）。随着 K 增大，边界变得平滑。K=N 意味着每次查询都考虑所有点，总是预测多数类（最大偏差）。"
  }
]