-
Notifications
You must be signed in to change notification settings - Fork 37
Expand file tree
/
Copy pathquiz.json
More file actions
64 lines (64 loc) · 4.39 KB
/
Copy pathquiz.json
File metadata and controls
64 lines (64 loc) · 4.39 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
"questions": [
{
"stage": "pre",
"question": "为什么一个 2D+池化 的视频模型在 Something-Something V2 数据集上会失败?",
"options": [
"图像太小",
"模型架构不兼容",
"该数据集的标签是由运动方向定义的(“把某物从左推到右”),而非由外观定义;对逐帧特征做的顺序无关平均池化无法区分运动方向",
"类别太多"
],
"correct": 2,
"explanation": "Something-Something 的标签实际上就是“X 从左移到右”与“X 从右移到左”。这两者在任意单帧中看起来完全相同,而对帧嵌入取平均是顺序无关的,所以 pool(f1, f2, ..., fT) == pool(fT, ..., f2, f1)。由运动定义的标签需要一个关注时间顺序的模型。"
},
{
"stage": "pre",
"question": "I3D 的膨胀(inflation)技巧是什么?",
"options": [
"一种在更多图像上预训练的方法",
"取一个 2D CNN 的预训练卷积核,把每个沿一个新的时间轴复制(除以 kernel_T 以保持激活尺度),并用它们初始化一个 3D CNN——在无需 3D 预训练的情况下给 3D 模型强大的权重",
"一种学习率调度器",
"一种压缩视频的方法"
],
"correct": 1,
"explanation": "膨胀用强大的 2D ImageNet 权重来引导 3D 视频模型。一个 3x3 的 2D 卷积核通过沿 T 轴复制并按 1/kernel_T 重缩放,变成一个 3x3x3 的 3D 卷积核。它把在 ImageNet 上学到的物体和纹理特征直接迁移进视频模型,这就是为什么 I3D 是第一个真正击败 2D+池化 基线的 3D 模型。"
},
{
"stage": "post",
"question": "(2+1)D 分解卷积把一个 3D 卷积拆分成哪两个操作?",
"options": [
"一个时间卷积后接一个深度卷积",
"一个分组卷积和一个 1x1 卷积",
"两个步长不同的 3D 卷积",
"一个空间 1x3x3 卷积后接一个时间 3x1x1 卷积,并在两者之间加入 BN+ReLU,从而增加一层完整 3D 卷积所没有的非线性"
],
"correct": 3,
"explanation": "(2+1)D 把 3x3x3 卷积核分解为先 (1x3x3) 再 (3x1x1)。这两个卷积之间有一层非线性(BN+ReLU),从而提升了每参数的表达能力。在 Kinetics 上,R(2+1)D-34 以更少的参数胜过等价的 R3D-34——那层额外的非线性确实在起作用。"
},
{
"stage": "post",
"question": "在视频 transformer 中,“分离式注意力(divided attention)”是什么意思?",
"options": [
"只对一半的 token 做注意力",
"每个 transformer 块有两个注意力模块:一个跨时间地对同一空间位置的 token 做注意力(时间注意力),然后一个跨空间地对同一时间步的 token 做注意力(空间注意力)——把 O((T*H*W)^2) 的完整注意力拆成 O(T^2) + O((H*W)^2)",
"只在训练时应用的注意力",
"跳过某些层的注意力"
],
"correct": 1,
"explanation": "完整的联合时空注意力是 O((T*H*W)^2),对长视频不可行。分离式注意力(TimeSformer)在每个块内交替进行时间注意力和空间注意力,把成本降到 O(T^2 + (H*W)^2)。它用理论上表达力的损失换取可处理的训练;实际上在大多数基准上,分离式注意力达到或超过联合注意力。"
},
{
"stage": "post",
"question": "你的 Kinetics-400 模型报告了 76% 的片段(clip)准确率和 82% 的视频准确率。这一差距告诉你什么?",
"options": [
"逐片段的预测带噪声;对每个视频采样的多个片段的预测取平均(测试时增强)能稳定结果。较大的差距表明模型的特征对采样到哪个 8 帧窗口很敏感,训练时使用更长的片段或更强的空间增强会缩小这一差距",
"模型坏了",
"测试集太小",
"按定义片段准确率总是低于视频准确率"
],
"correct": 0,
"explanation": "片段准确率在单个采样窗口上评估模型;视频准确率对多个窗口的预测取平均。6 个点的差距意味着模型对你采样到哪个窗口很敏感。缩小这一差距意味着模型在每个视频的时间分布上泛化得更好——而这正是你在部署中所希望的。务必同时报告这两个数字。"
}
]
}