ai-engineering-from-scratch-zh/phases/04-computer-vision/03-cnns-lenet-to-resnet/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "AlexNet（2012）引入了哪一个架构思想，使在 GPU 上训练深层 CNN 变得切实可行？",
      "options": [
        "残差连接",
        "用 ReLU 取代 tanh，它不会饱和，使收敛速度提升约 6 倍",
        "批归一化",
        "深度可分离卷积"
      ],
      "correct": 1,
      "explanation": "AlexNet 最大的训练提速来自 ReLU。tanh 对很大的正或负输入会饱和，扼杀梯度并限制可训练的深度。ReLU 是分段线性的，对正输入不会饱和，是把训练从数周缩短到数天的那一项改变。dropout 和 GPU 并行也很重要，但正是 ReLU 解锁了深度。"
    },
    {
      "stage": "pre",
      "question": "为什么 VGG 偏向堆叠 3x3 卷积而非单个更大的卷积核？",
      "options": [
        "较小的卷积核在 CPU 上运行更快",
        "两个 3x3 卷积覆盖同样的 5x5 感受野，参数更少（18C^2 对 25C^2），并在两者之间多一层 ReLU",
        "3x3 卷积是旋转不变的；5x5 不是",
        "更大的卷积核无法用 SGD 训练"
      ],
      "correct": 1,
      "explanation": "两个堆叠的 3x3 卷积所看到的 5x5 区域与一个 5x5 卷积相同，但使用更少的参数（2 * 3 * 3 * C^2 = 18C^2，相比 25C^2）并包含一层额外的非线性。那层额外的 ReLU 提升了表达能力。VGG 把这一观察变成了一整套架构，仅重复一种块类型。"
    },
    {
      "stage": "post",
      "question": "ResNet 以 y = F(x) + x 的形式引入残差连接。这解决了什么问题？",
      "options": [
        "分类头中的过拟合",
        "带 ReLU 的层中激活值消失",
        "退化问题——超过约 20 个普通卷积层后，训练损失开始变差，因为优化器难以通过许多非线性层学到恒等映射",
        "反向传播时的内存消耗"
      ],
      "correct": 2,
      "explanation": "在 ResNet 之前，即使网络有更大的容量，训练损失在超过约 20 层后也开始上升——这就是退化问题。残差块可以通过把 F 驱向零来轻松表示恒等映射，给优化器一个安全的默认值。有了这个退路，每个额外的块都能让网络稍稍变好，这就是 100 层以上网络变得可训练的原因。"
    },
    {
      "stage": "post",
      "question": "在 in_channels=64、out_channels=128、stride=2 的 ResNet BasicBlock 中，捷径分支（shortcut）起什么作用？",
      "options": [
        "它始终是恒等映射；主分支负责处理形状变化",
        "它是一个 stride 为 2 的 1x1 卷积，使其输出通道数和空间尺寸与主分支匹配，从而两者可以相加",
        "它是一个把空间维度减半的最大池化",
        "它是一个在推理时会被移除的占位符"
      ],
      "correct": 1,
      "explanation": "当一个块改变通道数或空间步长时，恒等路径由于形状不同而无法直接加到主分支上。此时捷径变成一个 stride=2、输出 C_out 通道的 1x1 卷积，可选地后接批归一化。只有当 in_c == out_c 且 stride == 1 时才使用直通的恒等映射。"
    },
    {
      "stage": "post",
      "question": "ResNet-18 约有 1170 万参数，在 ImageNet 上达到或超过 VGG-16（1.38 亿参数）。这说明了 VGG 的什么问题？",
      "options": [
        "VGG 的卷积核太小，学不到好的特征",
        "VGG 的大部分参数浪费在全连接头上，以及在残差连接本可让每一层都做出贡献的临界点之后的冗余深度上",
        "VGG 是用更差的优化器训练的",
        "VGG 在 ImageNet 上的准确率被测错了"
      ],
      "correct": 1,
      "explanation": "VGG-16 的参数量主要由其巨大的全连接分类器主导（在 25088 个激活上的三个全连接层），而它普通的深层堆叠无法像残差堆叠那样高效地增加层数。ResNet-18 用全局平均池化加一个全连接层取代了 FC 头并使用残差块，两者合在一起在相近准确率下带来约 12 倍的参数效率。"
    }
  ]
}