-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
67 lines (67 loc) · 2.78 KB
/
Copy pathquiz.json
File metadata and controls
67 lines (67 loc) · 2.78 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
[
{
"id": "knn-pre-1",
"stage": "pre",
"question": "KNN 被称为“惰性学习器”。这是什么意思?",
"options": [
"它在训练时收敛缓慢",
"它在训练时不做任何计算,把所有计算都放到预测时进行",
"它使用一个简化版的损失函数",
"它只对小数据集有效"
],
"correct": 1,
"explanation": "惰性学习意味着 KNN 只存储训练数据,在“训练”期间不做任何工作。所有计算(距离计算、投票)都在请求预测时发生。"
},
{
"id": "knn-pre-2",
"stage": "pre",
"question": "为什么特征缩放对 KNN 至关重要?",
"options": [
"不做缩放 KNN 就无法处理负数",
"距离计算会被取值范围更大的特征主导,因此需要缩放以进行公平比较",
"特征缩放减少所需的邻居数量",
"KNN 使用梯度下降,需要归一化输入"
],
"correct": 1,
"explanation": "KNN 依赖距离。一个取值范围为 0-1000 的特征会在距离计算中主导取值范围为 0-1 的特征。缩放使所有特征处于可比的范围。"
},
{
"id": "knn-post-1",
"stage": "post",
"question": "在 100 维空间中,对于均匀随机分布的点,最大距离与最小距离之比会怎样?",
"options": [
"它急剧增大,使邻居更易区分",
"它趋近于 1,使所有点彼此几乎等距",
"它与二维时保持相同",
"由于数值溢出它变为负数"
],
"correct": 1,
"explanation": "这就是维度灾难。在高维中,距离会趋于一致:max_dist / min_dist 趋近于 1。当所有点都等距时,“最近”就失去了意义。"
},
{
"id": "knn-post-2",
"stage": "post",
"question": "对于以 TF-IDF 向量表示的文本文档,哪种距离度量最合适?",
"options": [
"L2(欧氏)距离",
"L1(曼哈顿)距离",
"余弦距离",
"切比雪夫距离"
],
"correct": 2,
"explanation": "余弦距离衡量向量之间的夹角,忽略模长。对于文本,文档长度(模长)属于噪声——方向才捕捉含义。在文本上余弦距离始终优于 L1/L2。"
},
{
"id": "knn-post-3",
"stage": "post",
"question": "当 K 从 1 增大到 N(整个数据集大小)时,KNN 的决策边界会怎样?",
"options": [
"边界变得更复杂、更精细",
"无论 K 如何,边界保持不变",
"边界变得平滑,最终对每个点都预测多数类",
"边界变成圆形"
],
"correct": 2,
"explanation": "K=1 会产生紧随每个点的锯齿状边界(过拟合)。随着 K 增大,边界变得平滑。K=N 意味着每次查询都考虑所有点,总是预测多数类(最大偏差)。"
}
]