-
Notifications
You must be signed in to change notification settings - Fork 36
Expand file tree
/
Copy pathquiz.json
More file actions
64 lines (64 loc) · 4.56 KB
/
Copy pathquiz.json
File metadata and controls
64 lines (64 loc) · 4.56 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
"questions": [
{
"stage": "pre",
"question": "是什么架构差异把动作条件的世界模型(Genie 3)与纯视频生成模型(Sora 2)区分开来?",
"options": [
"动作条件模型更小",
"纯视频生成器在 t=0 时以一个提示为条件然后展开;动作条件的世界模型每帧接收一个潜在或显式的动作,使用户能在生成中途引导展开",
"只有训练数据集不同",
"世界模型只对 3D 场景有效"
],
"correct": 1,
"explanation": "Sora 2 在时空 token 上是自回归的;它的提示设定了场景,但你无法在展开中途改变方向。Genie 3 在每一步推断或接收一个潜在动作,并以此为条件预测下一帧,让用户能与被模拟的世界交互。正是这种交互性使一个模型成为“世界模拟器”而非视频生成器。"
},
{
"stage": "pre",
"question": "视频 transformer 中的分离式注意力是什么意思?",
"options": [
"一半的 token 被遮蔽",
"每个块先做时间注意力(同一空间位置、跨帧)再做空间注意力(同一帧、跨位置);这把成本从 O((T*H*W)^2) 分解为 O((H*W)*T^2) + O(T*(H*W)^2)——比联合乘积便宜得多",
"只有一半的层运行注意力",
"注意力被分散到多块 GPU 上"
],
"correct": 1,
"explanation": "对时空 token 的完整联合注意力成本高得令人却步:对于 T=150 个时间 token 和一个 60x45 的空间网格(2700 个空间 token),联合 (T*H*W)^2 ≈ 1.6e11 对。分离式注意力在每个空间位置运行时间注意力(H*W * T^2 ≈ 6.1e7),在每个时间步运行空间注意力(T * (H*W)^2 ≈ 1.1e9)——少了好几个数量级。TimeSformer 引入了这一模式;几乎每个 2026 年的视频 DiT(Sora、Wan、HunyuanVideo)都使用分离式或窗口变体。"
},
{
"stage": "post",
"question": "Sora 2 的 2026 年发布宣传了更好的物理合理性。这针对的是哪些具体的失败模式?",
"options": [
"色彩平衡和对比度",
"重量、平衡、物体恒存性、因果关系——相比 Sora 1,模型现在能更可信地处理掉落的物体、角色碰撞,以及“故意的失败”(一次失败的跳跃)",
"图像内部的文字渲染",
"视频长度"
],
"correct": 1,
"explanation": "上一代视频模型在吃意大利面、用玻璃杯喝水以及物体持续存在的场景上有著名的失败——手会穿过物体,物品在动作中途消失。Sora 2 明确宣传了在重量、平衡、物体恒存性和因果关系上的改进,并对照内部和公开的合理性基准进行了衡量。这些正是该领域仍在攻克的主要质量失败。"
},
{
"stage": "post",
"question": "在新兴的机器人技术栈(VLM + 视频生成 + 逆动力学)中,逆动力学模型做什么?",
"options": [
"它生成下一帧",
"它接收一对(当前观测、来自视频模型的期望下一观测)并输出能连接两者的低层电机动作;这闭合了想象的展开与实际执行之间的回路",
"它训练 VLM",
"它标注训练数据"
],
"correct": 1,
"explanation": "VLM 做规划,视频模型做想象,逆动力学模型把想象转化为电机指令。给定两个连续的观测,逆动力学发问:是什么动作产生了这个转换?这套三组件技术栈让机器人主要在一个学习到的模拟器中训练,用视频模型生成数据、用逆动力学模型来执行。"
},
{
"stage": "post",
"question": "自动驾驶团队使用世界模型(Cosmos-Drive、Gaia-2、DrivingWorld)来替代什么成本?",
"options": [
"实际的车队保险",
"针对罕见或危险极端场景(行人乱穿马路、结冰路面、异常车辆)的昂贵真实世界数据采集;合成的驾驶视频为这些场景按需提供训练和评估数据",
"道路通行费",
"车辆折旧"
],
"correct": 1,
"explanation": "采集极端场景的驾驶数据需要数百万英里的真实里程。Cosmos-Drive、Gaia-2 和 DrivingWorld 以轨迹和地图为条件生成这些数据。团队用这些数据扩充训练集、在可复现的条件下评估规划器,并为那些在现实中无法合乎伦理地去驾驶的场景降低风险。用合成替代一部分真实世界采集,是 2026 年视频世界模型最清晰的生产收益之一。"
}
]
}