ai-engineering-from-scratch-zh/phases/04-computer-vision/26-monocular-depth/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "相对深度和度量深度（metric depth）的主要区别是什么？",
      "options": [
        "相对深度总是分辨率更低",
        "没有区别",
        "度量深度使用灰度输出；相对深度使用彩色",
        "相对深度只给出有序的距离而没有真实世界单位；度量深度给出以米为单位的距离，要求模型已从训练数据中学到绝对尺度"
      ],
      "correct": 3,
      "explanation": "相对深度保留顺序和比例，但没有锚定到真实世界单位——MiDaS 或 Depth Anything 的预测需要先对齐，你才能把它与以米为单位的真值测量比较。度量深度模型（ZoeDepth、UniDepth、Metric3D）输出经过校准的距离，代价是对相机内参和训练数据覆盖的敏感性。"
    },
    {
      "stage": "pre",
      "question": "Depth Anything V3 使用一个冻结的 DINOv2 编码器加一个 DPT 风格的解码器。为什么要冻结编码器？",
      "options": [
        "否则 DINOv2 会学到糟糕的特征",
        "DINOv2 的自监督特征已经编码了与深度相关的场景结构、纹理梯度和物体语义；冻结它们让解码器能在有限的深度监督数据上以一个小头部训练，同时保持编码器强大的泛化能力",
        "仅仅是为了节省训练时的计算",
        "冻结是一项法律要求"
      ],
      "correct": 1,
      "explanation": "像 DINOv2 / DINOv3 这样的自监督 ViT 已经拥有只需极少微调就能迁移到密集任务的特征。冻结编码器加一个轻量级深度解码器意味着你只在深度数据上训练极少量的参数，并免费继承 DINOv2 的跨域泛化（室内、室外、医学、卫星）。如果深度数据集比 DINOv2 的预训练分布更窄，微调主干有时反而有害。"
    },
    {
      "stage": "post",
      "question": "要把一个预测深度为 d 的像素 (u, v) 提升到 3D，你使用 X = (u - cx) * d / fx, Y = (v - cy) * d / fy, Z = d。fx、fy、cx、cy 是什么？",
      "options": [
        "针孔相机内参——以像素为单位的焦距和主点，来自 EXIF 元数据或相机标定",
        "训练损失权重",
        "归一化常数",
        "深度解码器学到的权重"
      ],
      "correct": 0,
      "explanation": "针孔相机公式需要相机内参。fx、fy 是以像素为单位的焦距；cx、cy 是主点（通常接近图像中心）。没有内参，你只能假设一个通用的视场角（约 60 度），这对可视化够用但对测量不够。许多 2026 年的流水线从图像内容自动估计内参（Perspective Fields、UniDepth）。"
    },
    {
      "stage": "post",
      "question": "在评估一个相对深度模型（MiDaS、Depth Anything）时，为什么要在计算 AbsRel 之前先做缩放-平移对齐？",
      "options": [
        "为了虚高指标分数",
        "相对深度预测有任意的尺度和偏移；通过对 a * pred + b = target 做最小二乘拟合把它们对齐到真值，能公平地衡量相对模型实际被训练去产生的那种排序质量",
        "为了启用 GPU 推理",
        "不做对齐 PyTorch 就无法计算 AbsRel"
      ],
      "correct": 1,
      "explanation": "MiDaS 风格的模型产生的输出只有顺序和比例才有意义。不做对齐直接计算 AbsRel 衡量的是尺度不匹配，而非模型的真实质量。最小二乘对齐拟合一个最小化平方误差的线性变换；对齐后的残差才是你要报告的。每篇 MiDaS / Depth Anything 论文都使用这一协议。"
    },
    {
      "stage": "post",
      "question": "你的 Depth Anything 在一个带玻璃前台的接待桌上的预测，对玻璃区域报告了看似可信但明显错误的深度。为什么？",
      "options": [
        "模型坏了",
        "模型训练时没有玻璃数据",
        "玻璃、镜子和高反射表面破坏了模型所依赖的单目线索；网络看到玻璃后面的纹理/内容，并报告一个与之一致的合理深度，而不是真实的玻璃表面距离",
        "你的图像分辨率错了"
      ],
      "correct": 2,
      "explanation": "单目深度依赖纹理梯度、遮挡顺序和透视线索。反射或透明表面把它们全都搅乱了：镜子展示出一个有自身深度的场景；玻璃展示出它后面的内容。模型填入一个合理的深度，并自信地犯错。这是单目深度的一个根本性限制，而非 bug。当玻璃这类材质很重要时，可通过与立体视觉、LiDAR 或偏振相机融合来修复。"
    }
  ]
}