ai-engineering-from-scratch-zh/phases/04-computer-vision/13-3d-vision-nerf/quiz.json at main · fancyboi999/ai-engineering-from-scratch-zh · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
{
  "questions": [
    {
      "stage": "pre",
      "question": "为什么一个普通的 CNN 无法直接处理点云？",
      "options": [
        "点云太大",
        "CNN 假设输入像素排列在一个具有邻域结构的规则网格上；而点云是 R^3 中无序的点集合，没有网格且大小可变，违反了这两个假设",
        "CNN 只对灰度有效",
        "点云需要四元数"
      ],
      "correct": 1,
      "explanation": "CNN 卷积需要一个规则的邻域。点云既没有网格也没有固定的点数。把点云体素化能找回网格（被 3D CNN 使用），但内存开销很大。PointNet 绕开了这一点，采用了一种置换不变的架构：先独立处理每个点，再对称地聚合。"
    },
    {
      "stage": "pre",
      "question": "是什么技巧使 PointNet 对输入点保持置换不变？",
      "options": [
        "批归一化",
        "一个对每个点独立应用的共享 MLP，后接一个对称聚合（最大池化或求和）；由于聚合忽略点的顺序，整个网络的输出与顺序无关",
        "一个特殊的损失函数",
        "在前向传播之前对点排序"
      ],
      "correct": 1,
      "explanation": "对称函数技巧是 2017 年以来每个点云网络家族的核心。对每个点运行同一个 MLP（相同权重、不依赖顺序），然后用一个不依赖顺序的函数来聚合。最大值和求和是两个经典选择；PointNet 及其大多数后代使用最大值。"
    },
    {
      "stage": "post",
      "question": "一个直接喂入原始 (x, y, z) 坐标的朴素 NeRF MLP 会产生模糊的结果。什么能修复它？",
      "options": [
        "增加更多训练数据",
        "位置编码：在 MLP 之前把坐标投影成傅里叶特征（对多个 l 取 2^l * pi * x 的 sin/cos）；这让有低频偏好的 MLP 能够表示高频细节",
        "使用 16 位精度",
        "改用 CNN"
      ],
      "correct": 1,
      "explanation": "MLP 具有谱偏好：它们容易拟合平滑函数，却难以拟合高频。位置编码把每个坐标提升为一个已经包含高频信号的向量。于是 MLP 把这些特征组合成清晰的几何和纹理就容易多了。同样的技巧也用于 transformer 位置编码和扩散时间嵌入。"
    },
    {
      "stage": "post",
      "question": "NeRF 渲染出的一个像素是如何计算的？",
      "options": [
        "作为最后一层 MLP 的输出",
        "从相机出发穿过该像素投射一条射线，沿射线采样 N 个点，在每个点处查询 MLP 得到 (密度, 颜色)，并用体渲染方程把这些采样合成——该方程沿射线累积 alpha 加权的颜色",
        "通过查找一个预先计算好的体素网格",
        "通过对深度图运行卷积"
      ],
      "correct": 1,
      "explanation": "NeRF 渲染就是带有神经密度场的经典体渲染。对每个像素，你选一条射线、沿射线采样、在每个采样点查询 (sigma, c)，并用 (1 - exp(-sigma * delta)) 的 alpha 和累积透射率进行合成。通过这个渲染步骤进行反向传播，就能从 2D 照片训练出 MLP——全程不出现任何显式的 3D 监督。"
    },
    {
      "stage": "post",
      "question": "为什么 3D 高斯泼溅在生产中已基本取代了 NeRF？",
      "options": [
        "它能产生质量更高的图像",
        "它是一种显式表示（数百万个带不透明度和颜色的 3D 高斯），通过光栅化实时渲染，而非对采样射线做 MLP 查询；训练只需数分钟而非数小时，渲染快 100 倍，质量相当",
        "NeRF 被证明在数学上不正确",
        "高斯更易压缩"
      ],
      "correct": 1,
      "explanation": "3D 高斯泼溅（SIGGRAPH 2023）用一团显式的 3D 高斯基元取代了基于隐式 MLP 的场景。渲染变成 GPU 光栅化，比逐像素穿过 MLP 的射线采样快几个数量级。大多数 2026 年的 NeRF 产品都搭载高斯泼溅或其后继；NeRF 范式仍然为训练目标和数学提供基础。"
    }
  ]
}