ai-engineering-from-scratch-zh/phases/04-computer-vision/28-world-models-video-diffusion/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "是什么架构差异把动作条件的世界模型（Genie 3）与纯视频生成模型（Sora 2）区分开来？",
      "options": [
        "动作条件模型更小",
        "纯视频生成器在 t=0 时以一个提示为条件然后展开；动作条件的世界模型每帧接收一个潜在或显式的动作，使用户能在生成中途引导展开",
        "只有训练数据集不同",
        "世界模型只对 3D 场景有效"
      ],
      "correct": 1,
      "explanation": "Sora 2 在时空 token 上是自回归的；它的提示设定了场景，但你无法在展开中途改变方向。Genie 3 在每一步推断或接收一个潜在动作，并以此为条件预测下一帧，让用户能与被模拟的世界交互。正是这种交互性使一个模型成为“世界模拟器”而非视频生成器。"
    },
    {
      "stage": "pre",
      "question": "视频 transformer 中的分离式注意力是什么意思？",
      "options": [
        "一半的 token 被遮蔽",
        "每个块先做时间注意力（同一空间位置、跨帧）再做空间注意力（同一帧、跨位置）；这把成本从 O((T*H*W)^2) 分解为 O((H*W)*T^2) + O(T*(H*W)^2)——比联合乘积便宜得多",
        "只有一半的层运行注意力",
        "注意力被分散到多块 GPU 上"
      ],
      "correct": 1,
      "explanation": "对时空 token 的完整联合注意力成本高得令人却步：对于 T=150 个时间 token 和一个 60x45 的空间网格（2700 个空间 token），联合 (T*H*W)^2 ≈ 1.6e11 对。分离式注意力在每个空间位置运行时间注意力（H*W * T^2 ≈ 6.1e7），在每个时间步运行空间注意力（T * (H*W)^2 ≈ 1.1e9）——少了好几个数量级。TimeSformer 引入了这一模式；几乎每个 2026 年的视频 DiT（Sora、Wan、HunyuanVideo）都使用分离式或窗口变体。"
    },
    {
      "stage": "post",
      "question": "Sora 2 的 2026 年发布宣传了更好的物理合理性。这针对的是哪些具体的失败模式？",
      "options": [
        "色彩平衡和对比度",
        "重量、平衡、物体恒存性、因果关系——相比 Sora 1，模型现在能更可信地处理掉落的物体、角色碰撞，以及“故意的失败”（一次失败的跳跃）",
        "图像内部的文字渲染",
        "视频长度"
      ],
      "correct": 1,
      "explanation": "上一代视频模型在吃意大利面、用玻璃杯喝水以及物体持续存在的场景上有著名的失败——手会穿过物体，物品在动作中途消失。Sora 2 明确宣传了在重量、平衡、物体恒存性和因果关系上的改进，并对照内部和公开的合理性基准进行了衡量。这些正是该领域仍在攻克的主要质量失败。"
    },
    {
      "stage": "post",
      "question": "在新兴的机器人技术栈（VLM + 视频生成 + 逆动力学）中，逆动力学模型做什么？",
      "options": [
        "它生成下一帧",
        "它接收一对（当前观测、来自视频模型的期望下一观测）并输出能连接两者的低层电机动作；这闭合了想象的展开与实际执行之间的回路",
        "它训练 VLM",
        "它标注训练数据"
      ],
      "correct": 1,
      "explanation": "VLM 做规划，视频模型做想象，逆动力学模型把想象转化为电机指令。给定两个连续的观测，逆动力学发问：是什么动作产生了这个转换？这套三组件技术栈让机器人主要在一个学习到的模拟器中训练，用视频模型生成数据、用逆动力学模型来执行。"
    },
    {
      "stage": "post",
      "question": "自动驾驶团队使用世界模型（Cosmos-Drive、Gaia-2、DrivingWorld）来替代什么成本？",
      "options": [
        "实际的车队保险",
        "针对罕见或危险极端场景（行人乱穿马路、结冰路面、异常车辆）的昂贵真实世界数据采集；合成的驾驶视频为这些场景按需提供训练和评估数据",
        "道路通行费",
        "车辆折旧"
      ],
      "correct": 1,
      "explanation": "采集极端场景的驾驶数据需要数百万英里的真实里程。Cosmos-Drive、Gaia-2 和 DrivingWorld 以轨迹和地图为条件生成这些数据。团队用这些数据扩充训练集、在可复现的条件下评估规划器，并为那些在现实中无法合乎伦理地去驾驶的场景降低风险。用合成替代一部分真实世界采集，是 2026 年视频世界模型最清晰的生产收益之一。"
    }
  ]
}