fix(figures-i18n): 按翻译审查意见修正 7 处

fancyboi999 · fancyboi999 · commit db5ef10291a4 · 2026-06-12T12:08:49.000+08:00
审查（134 段 CAP 全量对照 + 术语 grep docs 验证）发现：
- CONDITIONING（linear-system-conditioning widget）条件控制→条件数：
  该 widget 讲线性方程组条件数/病态性，非生成模型条件控制（真错译）
- 投机解码→推测解码：宿主课 25-speculative-decoding 正文通篇用
  「推测解码」，全站 72 vs 22
- 权重绑定→权重共享：docs 已显式定名（pre-training-mini-gpt）
- 残差「点到直线的距离」→「竖直方向上的差距」（垂直距离歧义）
- differential-attention「注意力质量」→「注意力权重」（mass 歧义）
- 「百里挑一的疾病」→「患病率约 1/100」（成语褒义错配 + 保留字面率）
- 「天真的大权重」→「朴素地取大初始权重」（翻译腔）
diff --git a/site/figures-i18n-zh.js b/site/figures-i18n-zh.js
@@ -28,7 +28,7 @@
     'CHAIN RULE': '链式法则',
     'CLASS IMBALANCE': '类别不平衡',
     'CNN PARAM COUNT': 'CNN 参数量',
-    'CONDITIONING': '条件控制',
+    'CONDITIONING': '条件数',
     'CONTEXT BUDGET': '上下文预算',
     'CONTEXT WINDOW': '上下文窗口',
     'CONTINUOUS BATCHING': '连续批处理',
@@ -123,7 +123,7 @@
     'SOFTMAX SCALING': 'Softmax 缩放',
     'SOFTMAX TEMPERATURE': 'Softmax 温度',
     'SPECTROGRAM WINDOW': '频谱图窗口',
-    'SPECULATIVE DECODING': '投机解码',
+    'SPECULATIVE DECODING': '推测解码',
     'SUPERVISOR HIERARCHY': '监督者层级',
     'SVD LOW-RANK': 'SVD 低秩近似',
     'SVM MARGIN': 'SVM 间隔',
@@ -142,7 +142,7 @@
     'VANISHING GRADIENTS': '梯度消失',
     'VECTOR PROJECTION': '向量投影',
     'WEIGHT INIT VARIANCE': '权重初始化方差',
-    'WEIGHT TYING': '权重绑定',
+    'WEIGHT TYING': '权重共享',
     'WORD VECTOR ARITHMETIC': '词向量运算',
     'WORLD-MODEL ROLLOUT': '世界模型推演',
     'ZERO SHARDING': 'ZeRO 分片'
@@ -550,12 +550,12 @@
     'derivative-tangent': '导数就是切线的斜率。对 f(x) = x³ − 3x 它等于 3x² − 3，在 x = ±1 处为零，正是橙线放平的两个临界点。两点之间函数下降，两侧上升。梯度下降读的正是这个斜率来决定往哪边走。',
     'chain-rule': '复合函数 y = sin(a x²) 的求导是两个局部斜率相乘：外层的 cos(a x²) 和内层的 2 a x。每根橙色或蓝色的柱子是一个因子；它们的乘积是下方的柱子。反向传播正是一环扣一环地用这条规则把梯度推过整个网络。',
     'gaussian-pdf': '均值左右平移钟形曲线；标准差决定它的宽度。σ 越小峰越高越窄，因为总面积恒为 1。阴影带是 μ ± σ，无论曲线在哪，它总是罩住约 68% 的概率。',
-    'bayes-update': '贝叶斯的反直觉之处：对一种百里挑一的疾病，95% 准确率的检测呈阳性后，多数人依然是健康的——庞大健康人群贡献的假阳性淹没了寥寥真病例。只有先验高到真病例超过假警报时，后验才会爬升。',
+    'bayes-update': '贝叶斯的反直觉之处：对一种患病率约 1/100 的疾病，95% 准确率的检测呈阳性后，多数人依然是健康的——庞大健康人群贡献的假阳性淹没了寥寥真病例。只有先验高到真病例超过假警报时，后验才会爬升。',
     'entropy-kl': '熵 H(p) 度量蓝色分布的平均惊讶度，四个桶相等时达到最大。KL(p‖q) 度量用为 q 设计的编码去编码 p 的样本要多付的比特数；它永不为负，仅在两者一致时为零，且不对称。交叉熵训练最小化的正是这个差距。',
     'pca-axes': 'PCA 求的是协方差矩阵的特征向量。蓝轴（PC1）指向散布最大的方向；橙轴（PC2）与之垂直，捕捉剩余的部分。特征值就是各轴上的方差，所以点云越拉长、相关性越强，PC1 解释的方差占比就越高。',
     'fourier-synthesis': '任何周期信号都是基频整数倍正弦波的叠加。浅灰曲线是各奇次谐波；蓝色曲线是它们的和。把幅值设为 1、1/3、1/5、1/7，和就开始变方——这是傅里叶级数逼近方波的经典做法。',
     'convex-vs-nonconvex': '凸的碗只有一个最小值，梯度下降从任何起点都能到达。非凸地形有好几个山谷：灰色轨迹滚进离它最近的那个，橙点可能停在并非全局最优的局部极小值里。拖动起点，看不同的盆地如何捕获路径。',
-    'linear-regression-fit': '每根橙色柱是一个残差，即点到直线的距离。平方后取平均就是均方误差。最小二乘不过是选出让这个平均值最小的斜率和截距。',
+    'linear-regression-fit': '每根橙色柱是一个残差，即数据点与直线在竖直方向上的差距。平方后取平均就是均方误差。最小二乘不过是选出让这个平均值最小的斜率和截距。',
     'logistic-sigmoid': '逻辑回归把线性得分压过 sigmoid 得到概率。权重控制曲线转弯的陡峭程度；偏置左右平移它。橙线是决策边界，即概率跨过一半的位置。',
     'svm-margin': '支持向量机不只是分开两类，它把边界推到离两边都尽可能远。虚线标出间隔；贴着虚线、金圈圈出的点是支持向量。挪动其它任何点，结果纹丝不动。',
     'knn-smoothness': 'k = 1 时预测照抄最近的点，曲线参差不齐，拟合了每一处怪癖。调大 k 会对更多邻居取平均，边界逐渐平滑，k 极大时则趋平于整体类别比例，无视局部结构。',
@@ -569,7 +569,7 @@
     'mlp-forward': '两个输入经固定权重喂给三个隐藏单元，各自被 tanh 压缩，再汇成一个输出。蓝边是正权重，金边是负权重；节点深浅显示在你设定的输入下每个单元的激活强度。',
     'backprop-vanishing': '反向传播每过一层就乘上一个激活函数的导数。Sigmoid 的导数上限是 0.25，tanh 也始终小于一，于是深网络里这个乘积塌向零（注意对数坐标轴）。ReLU 对激活的单元保持导数为一，这正是它让深度训练变得可行的原因。',
     'optimizer-trajectory': '损失面是一条窄峡谷：沿 x 平缓，沿 y 陡二十倍。朴素 SGD 在陡壁之间来回弹跳，顺谷底爬行。动量平滑了弹跳；Adam 把每个方向归一化，让两个轴以相近速率收敛。',
-    'weight-init-variance': '每一层把激活方差乘上 n·Var(w) 的增益。天真的大权重让增益随宽度增长，激活值爆炸（对数轴）。Xavier 取 Var(w)=1/n，He 为 ReLU 取 2/n，都把增益压在一附近，让信号幅度在深度方向保持平稳。',
+    'weight-init-variance': '每一层把激活方差乘上 n·Var(w) 的增益。朴素地取大初始权重，会让增益随宽度增长、激活值爆炸（对数轴）。Xavier 取 Var(w)=1/n，He 为 ReLU 取 2/n，都把增益压在一附近，让信号幅度在深度方向保持平稳。',
     'dropout-mask': 'Dropout 每步随机清零比例为 p 的单元，让网络无法依赖任何单个单元。因为只有幸存者传递信号，它们被放大 1/(1−p) 以保持期望激活不变，测试时整层全开、不做缩放。',
     'batchnorm-effect': '不管下层送上来的均值和离散度是什么样（灰色），批归一化都会减去批均值、除以批标准差，把分布拉回零均值单位方差（蓝色）。可学习的 γ 和 β 再让网络在需要别的尺度时重新拉伸。',
     'learning-curves': '灰色是训练损失，蓝色是验证损失。容量越大训练损失永远越低，但验证损失见底后回升——模型开始记噪声了。拉大的缺口就是过拟合信号；金线标出早停会冻结模型的位置。',
@@ -642,7 +642,7 @@
     'paged-kv-cache': '连续 KV 缓存为每个请求预留满额最大序列长度，大半空置（灰色）。PagedAttention 把缓存放进按需分配的定长页里：只有最后一页部分空闲（橙色）。内部浪费从「上限减实际长度」降到至多一页，这就是分页缓存能在同一块 GPU 上塞进多得多并发序列的原因。',
     'expert-capacity': 'MoE 层的每个专家有固定的 token 槽位数，由容量因子决定。路由不均匀，热门专家会溢出，多出的 token 被丢弃（虚线上方的橙色）。因子设太低丢 token 多；设太高则轻载专家闲置、白费填充算力。这个因子就是为了把两头都压小而调的。',
     'sliding-window-attention': '行是 query，列是 key。蓝格是 token 真正注意的对子；灰格在因果三角形之内但被窗口切掉；白色是永远被掩蔽的未来。完整因果注意力以 O(N²) 填满整个下三角。宽度 w 的滑动窗口只留对角带，降到 O(N·w)，长上下文才付得起。',
-    'differential-attention': '差分注意力算两张独立的 softmax 图，把第二张乘上学到的 λ 后从第一张里减去。两张图携带同样的弥散注意力噪声，相减把它当共模信号消掉，而真正的信号峰（这里是 token 2）幸存。调大 λ 减得更狠，注意力质量被收拢到相关 token 上，而不是摊在无关上下文里。',
+    'differential-attention': '差分注意力算两张独立的 softmax 图，把第二张乘上学到的 λ 后从第一张里减去。两张图携带同样的弥散注意力噪声，相减把它当共模信号消掉，而真正的信号峰（这里是 token 2）幸存。调大 λ 减得更狠，注意力权重被收拢到相关 token 上，而不是摊在无关上下文里。',
     'weight-tying': '输入嵌入把每个 token id 映射成 d 维向量；输出投影把隐藏向量映射回每个词表条目的 logit。两者都是 vocab×d 的矩阵、扮演互逆角色，所以许多模型把它们绑定：输出层复用转置的嵌入矩阵。这省下整整一块 vocab×d_model 的参数——词表宽达几万 token 时是笔大数目。',
     'data-parallel': '每块 GPU 持有完整的模型副本，处理全局批的不同切片。反向传播之后，一次 all-reduce 把所有 GPU 的梯度求和，使各副本保持一致。吞吐随 GPU 数接近线性扩展，但显存并不下降，因为每台设备仍存整个模型。',
     'tensor-parallel': '单个大矩阵乘法按权重矩阵的列块切到多块 GPU 上。每块 GPU 用完整输入乘自己的切片得到部分输出，再由一次 all-gather 把切片拼成完整结果。每 GPU 参数量按 GPU 数下降——单卡放不下的一层就是这样被服务起来的。',