-
Notifications
You must be signed in to change notification settings - Fork 36
Expand file tree
/
Copy pathquiz.json
More file actions
64 lines (64 loc) · 3.04 KB
/
Copy pathquiz.json
File metadata and controls
64 lines (64 loc) · 3.04 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
"questions": [
{
"stage": "pre",
"question": "什么是“维度灾难”?",
"options": [
"高维数据下载耗时太长",
"随着维度增长,距离变得没有意义,体积集中在角落,而且你需要指数级增多的数据",
"神经网络无法处理超过 100 个特征的数据",
"高维数据总是包含噪声"
],
"correct": 1,
"explanation": "在高维空间中,所有两两距离都趋于相近的值,数据点散布到各个角落,而维持样本密度需要指数级增多的数据。降维可以对抗这些影响。"
},
{
"stage": "pre",
"question": "PCA 找到的是什么?",
"options": [
"按名称列出的最重要特征",
"数据中方差最大的正交方向",
"相似数据点的聚类",
"应保留的最优特征数量"
],
"correct": 1,
"explanation": "PCA 计算协方差矩阵的特征向量,它们是按所捕捉的数据方差大小排序的正交方向。第一主成分指向数据散布最大的方向。"
},
{
"stage": "post",
"question": "在 784 维的 MNIST 数据上用 k=50 个主成分运行 PCA 后,你发现捕捉了 95% 的方差。这告诉你什么?",
"options": [
"每张图像中只有 50 个像素重要",
"数据实际上位于一个约 50 维的子空间中;其余 734 个维度大多是噪声或冗余",
"95% 的图像属于同一类别",
"模型将达到 95% 的准确率"
],
"correct": 1,
"explanation": "用 50 个主成分解释了 95% 的方差,意味着 784 维数据的本质结构仅由 50 个方向就捕捉到了。其余部分只携带 5% 的变化——大多是噪声。"
},
{
"stage": "post",
"question": "为什么不应该把 t-SNE 用作训练分类器之前的预处理?",
"options": [
"t-SNE 对大数据集来说太慢",
"t-SNE 仅为可视化而设计:它会扭曲全局距离、具有随机性,而且输出坐标在不同运行之间没有一致的含义",
"t-SNE 把数据降到恰好 2 维,这太少了",
"t-SNE 需要事先知道标签"
],
"correct": 1,
"explanation": "t-SNE 保留局部邻域但扭曲全局结构。聚类之间的距离没有意义,而且不同运行会产生不同的布局。预处理请用 PCA,t-SNE/UMAP 只用于可视化。"
},
{
"stage": "post",
"question": "什么时候应该选择核 PCA 而非标准 PCA?",
"options": [
"当样本数多于特征数时",
"当数据位于标准 PCA 无法分离的非线性流形上时,比如同心圆",
"当你需要尽可能快的计算时",
"当你想要可解释的主成分时"
],
"correct": 1,
"explanation": "标准 PCA 寻找线性子空间。如果数据具有非线性结构(例如两个同心环),PCA 会把两者投影到同一条线上。核 PCA 把数据映射到更高维的空间,在那里结构变为线性。"
}
]
}