ai-engineering-from-scratch-zh/phases/04-computer-vision/02-convolutions-from-scratch/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "你把一张 224x224 的 RGB 图像喂入 kernel_size=3、stride=1、padding=0 的卷积。输出的空间尺寸是多少？",
      "options": [
        "224x224",
        "222x222",
        "112x112",
        "74x74"
      ],
      "correct": 1,
      "explanation": "输出尺寸 = (H - K + 2P) / S + 1 = (224 - 3 + 0) / 1 + 1 = 222。没有填充时，每个 3x3 卷积都会使特征图在每个轴上缩小 2 个像素——每个边界各少一个像素。"
    },
    {
      "stage": "pre",
      "question": "一个卷积层 in_channels=3、out_channels=64、kernel_size=3，带偏置。有多少可学习参数？",
      "options": [
        "1,728",
        "1,792",
        "576",
        "192"
      ],
      "correct": 1,
      "explanation": "C_out * C_in * K * K + C_out = 64 * 3 * 3 * 3 + 64 = 1,728 + 64 = 1,792。其中 +C_out 是每个输出通道一个偏置。把它与对相同输入的全连接层（224*224*3 -> 64 约 960 万参数）相比，就能明白为什么卷积是图像的正确先验。"
    },
    {
      "stage": "post",
      "question": "为什么现代 CNN 更偏向堆叠 3x3 卷积，而非单个 5x5 或 7x7 卷积？",
      "options": [
        "3x3 卷积有硬件加速；更大的没有",
        "两个 3x3 卷积覆盖同样的 5x5 感受野，参数更少（2 * 9 对 25），并在两者之间增加一层额外的非线性",
        "大卷积核会溢出 GPU 寄存器",
        "3x3 是唯一支持填充的卷积核尺寸"
      ],
      "correct": 1,
      "explanation": "堆叠 3x3 卷积给出与一个大卷积相同的感受野，但参数更少、非线性更多，从而提升表达能力。VGG 在实验上证明了这一点，每个现代家族（ResNet、ConvNeXt）都继承了这一设计。"
    },
    {
      "stage": "post",
      "question": "im2col 变换实际上做什么？",
      "options": [
        "它压缩图像以放入 GPU 缓存",
        "它从输入中提取每个卷积核大小的感受窗口，并把它们堆叠成列，使卷积变成一次矩阵乘法",
        "它把 float32 像素转换为 int8 以加快运算",
        "它把一个批次中的所有图像拼接成单个二维矩阵"
      ],
      "correct": 1,
      "explanation": "im2col 重塑输入，使每一列都是一个被展平的感受野。把卷积核展平成一行后，卷积就化简为 cols @ w_flat.T，即一次 GEMM 调用，GPU 执行它比四重 Python 循环快上千倍。每个生产级卷积库都是这种做法的某种变体。"
    },
    {
      "stage": "post",
      "question": "你堆叠了四个 3x3 卷积（全部 stride 1，无池化）。最后一层中一个神经元的感受野是多少？",
      "options": [
        "3x3——每个卷积都是 3x3",
        "5x5——两个卷积给出 5x5，深度起不到作用",
        "9x9——每个卷积每侧增加 2：1 + 4*(3-1) = 9",
        "15x15——每个卷积使感受野变为三倍"
      ],
      "correct": 2,
      "explanation": "对于 L 个堆叠的、stride 为 1 的 K x K 卷积，感受野 = 1 + L * (K - 1)。L=4、K=3 时即 1 + 4*2 = 9。同样的公式可推广到带步长的情况：感受野通过带步长的层成倍增长，这就是为什么一个带下采样的深层网络能在十到十五个块内覆盖整张图像。"
    }
  ]
}