ai-engineering-from-scratch-zh/phases/01-math-foundations/10-dimensionality-reduction/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "什么是“维度灾难”？",
      "options": [
        "高维数据下载耗时太长",
        "随着维度增长，距离变得没有意义，体积集中在角落，而且你需要指数级增多的数据",
        "神经网络无法处理超过 100 个特征的数据",
        "高维数据总是包含噪声"
      ],
      "correct": 1,
      "explanation": "在高维空间中，所有两两距离都趋于相近的值，数据点散布到各个角落，而维持样本密度需要指数级增多的数据。降维可以对抗这些影响。"
    },
    {
      "stage": "pre",
      "question": "PCA 找到的是什么？",
      "options": [
        "按名称列出的最重要特征",
        "数据中方差最大的正交方向",
        "相似数据点的聚类",
        "应保留的最优特征数量"
      ],
      "correct": 1,
      "explanation": "PCA 计算协方差矩阵的特征向量，它们是按所捕捉的数据方差大小排序的正交方向。第一主成分指向数据散布最大的方向。"
    },
    {
      "stage": "post",
      "question": "在 784 维的 MNIST 数据上用 k=50 个主成分运行 PCA 后，你发现捕捉了 95% 的方差。这告诉你什么？",
      "options": [
        "每张图像中只有 50 个像素重要",
        "数据实际上位于一个约 50 维的子空间中；其余 734 个维度大多是噪声或冗余",
        "95% 的图像属于同一类别",
        "模型将达到 95% 的准确率"
      ],
      "correct": 1,
      "explanation": "用 50 个主成分解释了 95% 的方差，意味着 784 维数据的本质结构仅由 50 个方向就捕捉到了。其余部分只携带 5% 的变化——大多是噪声。"
    },
    {
      "stage": "post",
      "question": "为什么不应该把 t-SNE 用作训练分类器之前的预处理？",
      "options": [
        "t-SNE 对大数据集来说太慢",
        "t-SNE 仅为可视化而设计：它会扭曲全局距离、具有随机性，而且输出坐标在不同运行之间没有一致的含义",
        "t-SNE 把数据降到恰好 2 维，这太少了",
        "t-SNE 需要事先知道标签"
      ],
      "correct": 1,
      "explanation": "t-SNE 保留局部邻域但扭曲全局结构。聚类之间的距离没有意义，而且不同运行会产生不同的布局。预处理请用 PCA，t-SNE/UMAP 只用于可视化。"
    },
    {
      "stage": "post",
      "question": "什么时候应该选择核 PCA 而非标准 PCA？",
      "options": [
        "当样本数多于特征数时",
        "当数据位于标准 PCA 无法分离的非线性流形上时，比如同心圆",
        "当你需要尽可能快的计算时",
        "当你想要可解释的主成分时"
      ],
      "correct": 1,
      "explanation": "标准 PCA 寻找线性子空间。如果数据具有非线性结构（例如两个同心环），PCA 会把两者投影到同一条线上。核 PCA 把数据映射到更高维的空间，在那里结构变为线性。"
    }
  ]
}