ai-engineering-from-scratch-zh/phases/04-computer-vision/12-video-understanding/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "为什么一个 2D+池化 的视频模型在 Something-Something V2 数据集上会失败？",
      "options": [
        "图像太小",
        "模型架构不兼容",
        "该数据集的标签是由运动方向定义的（“把某物从左推到右”），而非由外观定义；对逐帧特征做的顺序无关平均池化无法区分运动方向",
        "类别太多"
      ],
      "correct": 2,
      "explanation": "Something-Something 的标签实际上就是“X 从左移到右”与“X 从右移到左”。这两者在任意单帧中看起来完全相同，而对帧嵌入取平均是顺序无关的，所以 pool(f1, f2, ..., fT) == pool(fT, ..., f2, f1)。由运动定义的标签需要一个关注时间顺序的模型。"
    },
    {
      "stage": "pre",
      "question": "I3D 的膨胀（inflation）技巧是什么？",
      "options": [
        "一种在更多图像上预训练的方法",
        "取一个 2D CNN 的预训练卷积核，把每个沿一个新的时间轴复制（除以 kernel_T 以保持激活尺度），并用它们初始化一个 3D CNN——在无需 3D 预训练的情况下给 3D 模型强大的权重",
        "一种学习率调度器",
        "一种压缩视频的方法"
      ],
      "correct": 1,
      "explanation": "膨胀用强大的 2D ImageNet 权重来引导 3D 视频模型。一个 3x3 的 2D 卷积核通过沿 T 轴复制并按 1/kernel_T 重缩放，变成一个 3x3x3 的 3D 卷积核。它把在 ImageNet 上学到的物体和纹理特征直接迁移进视频模型，这就是为什么 I3D 是第一个真正击败 2D+池化 基线的 3D 模型。"
    },
    {
      "stage": "post",
      "question": "(2+1)D 分解卷积把一个 3D 卷积拆分成哪两个操作？",
      "options": [
        "一个时间卷积后接一个深度卷积",
        "一个分组卷积和一个 1x1 卷积",
        "两个步长不同的 3D 卷积",
        "一个空间 1x3x3 卷积后接一个时间 3x1x1 卷积，并在两者之间加入 BN+ReLU，从而增加一层完整 3D 卷积所没有的非线性"
      ],
      "correct": 3,
      "explanation": "(2+1)D 把 3x3x3 卷积核分解为先 (1x3x3) 再 (3x1x1)。这两个卷积之间有一层非线性（BN+ReLU），从而提升了每参数的表达能力。在 Kinetics 上，R(2+1)D-34 以更少的参数胜过等价的 R3D-34——那层额外的非线性确实在起作用。"
    },
    {
      "stage": "post",
      "question": "在视频 transformer 中，“分离式注意力（divided attention）”是什么意思？",
      "options": [
        "只对一半的 token 做注意力",
        "每个 transformer 块有两个注意力模块：一个跨时间地对同一空间位置的 token 做注意力（时间注意力），然后一个跨空间地对同一时间步的 token 做注意力（空间注意力）——把 O((T*H*W)^2) 的完整注意力拆成 O(T^2) + O((H*W)^2)",
        "只在训练时应用的注意力",
        "跳过某些层的注意力"
      ],
      "correct": 1,
      "explanation": "完整的联合时空注意力是 O((T*H*W)^2)，对长视频不可行。分离式注意力（TimeSformer）在每个块内交替进行时间注意力和空间注意力，把成本降到 O(T^2 + (H*W)^2)。它用理论上表达力的损失换取可处理的训练；实际上在大多数基准上，分离式注意力达到或超过联合注意力。"
    },
    {
      "stage": "post",
      "question": "你的 Kinetics-400 模型报告了 76% 的片段（clip）准确率和 82% 的视频准确率。这一差距告诉你什么？",
      "options": [
        "逐片段的预测带噪声；对每个视频采样的多个片段的预测取平均（测试时增强）能稳定结果。较大的差距表明模型的特征对采样到哪个 8 帧窗口很敏感，训练时使用更长的片段或更强的空间增强会缩小这一差距",
        "模型坏了",
        "测试集太小",
        "按定义片段准确率总是低于视频准确率"
      ],
      "correct": 0,
      "explanation": "片段准确率在单个采样窗口上评估模型；视频准确率对多个窗口的预测取平均。6 个点的差距意味着模型对你采样到哪个窗口很敏感。缩小这一差距意味着模型在每个视频的时间分布上泛化得更好——而这正是你在部署中所希望的。务必同时报告这两个数字。"
    }
  ]
}