Skip to content

Commit db5ef10

Browse files
committed
fix(figures-i18n): 按翻译审查意见修正 7 处
审查(134 段 CAP 全量对照 + 术语 grep docs 验证)发现: - CONDITIONING(linear-system-conditioning widget)条件控制→条件数: 该 widget 讲线性方程组条件数/病态性,非生成模型条件控制(真错译) - 投机解码→推测解码:宿主课 25-speculative-decoding 正文通篇用 「推测解码」,全站 72 vs 22 - 权重绑定→权重共享:docs 已显式定名(pre-training-mini-gpt) - 残差「点到直线的距离」→「竖直方向上的差距」(垂直距离歧义) - differential-attention「注意力质量」→「注意力权重」(mass 歧义) - 「百里挑一的疾病」→「患病率约 1/100」(成语褒义错配 + 保留字面率) - 「天真的大权重」→「朴素地取大初始权重」(翻译腔)
1 parent 6837f83 commit db5ef10

1 file changed

Lines changed: 7 additions & 7 deletions

File tree

site/figures-i18n-zh.js

Lines changed: 7 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -28,7 +28,7 @@
2828
'CHAIN RULE': '链式法则',
2929
'CLASS IMBALANCE': '类别不平衡',
3030
'CNN PARAM COUNT': 'CNN 参数量',
31-
'CONDITIONING': '条件控制',
31+
'CONDITIONING': '条件数',
3232
'CONTEXT BUDGET': '上下文预算',
3333
'CONTEXT WINDOW': '上下文窗口',
3434
'CONTINUOUS BATCHING': '连续批处理',
@@ -123,7 +123,7 @@
123123
'SOFTMAX SCALING': 'Softmax 缩放',
124124
'SOFTMAX TEMPERATURE': 'Softmax 温度',
125125
'SPECTROGRAM WINDOW': '频谱图窗口',
126-
'SPECULATIVE DECODING': '投机解码',
126+
'SPECULATIVE DECODING': '推测解码',
127127
'SUPERVISOR HIERARCHY': '监督者层级',
128128
'SVD LOW-RANK': 'SVD 低秩近似',
129129
'SVM MARGIN': 'SVM 间隔',
@@ -142,7 +142,7 @@
142142
'VANISHING GRADIENTS': '梯度消失',
143143
'VECTOR PROJECTION': '向量投影',
144144
'WEIGHT INIT VARIANCE': '权重初始化方差',
145-
'WEIGHT TYING': '权重绑定',
145+
'WEIGHT TYING': '权重共享',
146146
'WORD VECTOR ARITHMETIC': '词向量运算',
147147
'WORLD-MODEL ROLLOUT': '世界模型推演',
148148
'ZERO SHARDING': 'ZeRO 分片'
@@ -550,12 +550,12 @@
550550
'derivative-tangent': '导数就是切线的斜率。对 f(x) = x³ − 3x 它等于 3x² − 3,在 x = ±1 处为零,正是橙线放平的两个临界点。两点之间函数下降,两侧上升。梯度下降读的正是这个斜率来决定往哪边走。',
551551
'chain-rule': '复合函数 y = sin(a x²) 的求导是两个局部斜率相乘:外层的 cos(a x²) 和内层的 2 a x。每根橙色或蓝色的柱子是一个因子;它们的乘积是下方的柱子。反向传播正是一环扣一环地用这条规则把梯度推过整个网络。',
552552
'gaussian-pdf': '均值左右平移钟形曲线;标准差决定它的宽度。σ 越小峰越高越窄,因为总面积恒为 1。阴影带是 μ ± σ,无论曲线在哪,它总是罩住约 68% 的概率。',
553-
'bayes-update': '贝叶斯的反直觉之处:对一种百里挑一的疾病,95% 准确率的检测呈阳性后,多数人依然是健康的——庞大健康人群贡献的假阳性淹没了寥寥真病例。只有先验高到真病例超过假警报时,后验才会爬升。',
553+
'bayes-update': '贝叶斯的反直觉之处:对一种患病率约 1/100 的疾病,95% 准确率的检测呈阳性后,多数人依然是健康的——庞大健康人群贡献的假阳性淹没了寥寥真病例。只有先验高到真病例超过假警报时,后验才会爬升。',
554554
'entropy-kl': '熵 H(p) 度量蓝色分布的平均惊讶度,四个桶相等时达到最大。KL(p‖q) 度量用为 q 设计的编码去编码 p 的样本要多付的比特数;它永不为负,仅在两者一致时为零,且不对称。交叉熵训练最小化的正是这个差距。',
555555
'pca-axes': 'PCA 求的是协方差矩阵的特征向量。蓝轴(PC1)指向散布最大的方向;橙轴(PC2)与之垂直,捕捉剩余的部分。特征值就是各轴上的方差,所以点云越拉长、相关性越强,PC1 解释的方差占比就越高。',
556556
'fourier-synthesis': '任何周期信号都是基频整数倍正弦波的叠加。浅灰曲线是各奇次谐波;蓝色曲线是它们的和。把幅值设为 1、1/3、1/5、1/7,和就开始变方——这是傅里叶级数逼近方波的经典做法。',
557557
'convex-vs-nonconvex': '凸的碗只有一个最小值,梯度下降从任何起点都能到达。非凸地形有好几个山谷:灰色轨迹滚进离它最近的那个,橙点可能停在并非全局最优的局部极小值里。拖动起点,看不同的盆地如何捕获路径。',
558-
'linear-regression-fit': '每根橙色柱是一个残差,即点到直线的距离。平方后取平均就是均方误差。最小二乘不过是选出让这个平均值最小的斜率和截距。',
558+
'linear-regression-fit': '每根橙色柱是一个残差,即数据点与直线在竖直方向上的差距。平方后取平均就是均方误差。最小二乘不过是选出让这个平均值最小的斜率和截距。',
559559
'logistic-sigmoid': '逻辑回归把线性得分压过 sigmoid 得到概率。权重控制曲线转弯的陡峭程度;偏置左右平移它。橙线是决策边界,即概率跨过一半的位置。',
560560
'svm-margin': '支持向量机不只是分开两类,它把边界推到离两边都尽可能远。虚线标出间隔;贴着虚线、金圈圈出的点是支持向量。挪动其它任何点,结果纹丝不动。',
561561
'knn-smoothness': 'k = 1 时预测照抄最近的点,曲线参差不齐,拟合了每一处怪癖。调大 k 会对更多邻居取平均,边界逐渐平滑,k 极大时则趋平于整体类别比例,无视局部结构。',
@@ -569,7 +569,7 @@
569569
'mlp-forward': '两个输入经固定权重喂给三个隐藏单元,各自被 tanh 压缩,再汇成一个输出。蓝边是正权重,金边是负权重;节点深浅显示在你设定的输入下每个单元的激活强度。',
570570
'backprop-vanishing': '反向传播每过一层就乘上一个激活函数的导数。Sigmoid 的导数上限是 0.25,tanh 也始终小于一,于是深网络里这个乘积塌向零(注意对数坐标轴)。ReLU 对激活的单元保持导数为一,这正是它让深度训练变得可行的原因。',
571571
'optimizer-trajectory': '损失面是一条窄峡谷:沿 x 平缓,沿 y 陡二十倍。朴素 SGD 在陡壁之间来回弹跳,顺谷底爬行。动量平滑了弹跳;Adam 把每个方向归一化,让两个轴以相近速率收敛。',
572-
'weight-init-variance': '每一层把激活方差乘上 n·Var(w) 的增益。天真的大权重让增益随宽度增长,激活值爆炸(对数轴)。Xavier 取 Var(w)=1/n,He 为 ReLU 取 2/n,都把增益压在一附近,让信号幅度在深度方向保持平稳。',
572+
'weight-init-variance': '每一层把激活方差乘上 n·Var(w) 的增益。朴素地取大初始权重,会让增益随宽度增长、激活值爆炸(对数轴)。Xavier 取 Var(w)=1/n,He 为 ReLU 取 2/n,都把增益压在一附近,让信号幅度在深度方向保持平稳。',
573573
'dropout-mask': 'Dropout 每步随机清零比例为 p 的单元,让网络无法依赖任何单个单元。因为只有幸存者传递信号,它们被放大 1/(1−p) 以保持期望激活不变,测试时整层全开、不做缩放。',
574574
'batchnorm-effect': '不管下层送上来的均值和离散度是什么样(灰色),批归一化都会减去批均值、除以批标准差,把分布拉回零均值单位方差(蓝色)。可学习的 γ 和 β 再让网络在需要别的尺度时重新拉伸。',
575575
'learning-curves': '灰色是训练损失,蓝色是验证损失。容量越大训练损失永远越低,但验证损失见底后回升——模型开始记噪声了。拉大的缺口就是过拟合信号;金线标出早停会冻结模型的位置。',
@@ -642,7 +642,7 @@
642642
'paged-kv-cache': '连续 KV 缓存为每个请求预留满额最大序列长度,大半空置(灰色)。PagedAttention 把缓存放进按需分配的定长页里:只有最后一页部分空闲(橙色)。内部浪费从「上限减实际长度」降到至多一页,这就是分页缓存能在同一块 GPU 上塞进多得多并发序列的原因。',
643643
'expert-capacity': 'MoE 层的每个专家有固定的 token 槽位数,由容量因子决定。路由不均匀,热门专家会溢出,多出的 token 被丢弃(虚线上方的橙色)。因子设太低丢 token 多;设太高则轻载专家闲置、白费填充算力。这个因子就是为了把两头都压小而调的。',
644644
'sliding-window-attention': '行是 query,列是 key。蓝格是 token 真正注意的对子;灰格在因果三角形之内但被窗口切掉;白色是永远被掩蔽的未来。完整因果注意力以 O(N²) 填满整个下三角。宽度 w 的滑动窗口只留对角带,降到 O(N·w),长上下文才付得起。',
645-
'differential-attention': '差分注意力算两张独立的 softmax 图,把第二张乘上学到的 λ 后从第一张里减去。两张图携带同样的弥散注意力噪声,相减把它当共模信号消掉,而真正的信号峰(这里是 token 2)幸存。调大 λ 减得更狠,注意力质量被收拢到相关 token 上,而不是摊在无关上下文里。',
645+
'differential-attention': '差分注意力算两张独立的 softmax 图,把第二张乘上学到的 λ 后从第一张里减去。两张图携带同样的弥散注意力噪声,相减把它当共模信号消掉,而真正的信号峰(这里是 token 2)幸存。调大 λ 减得更狠,注意力权重被收拢到相关 token 上,而不是摊在无关上下文里。',
646646
'weight-tying': '输入嵌入把每个 token id 映射成 d 维向量;输出投影把隐藏向量映射回每个词表条目的 logit。两者都是 vocab×d 的矩阵、扮演互逆角色,所以许多模型把它们绑定:输出层复用转置的嵌入矩阵。这省下整整一块 vocab×d_model 的参数——词表宽达几万 token 时是笔大数目。',
647647
'data-parallel': '每块 GPU 持有完整的模型副本,处理全局批的不同切片。反向传播之后,一次 all-reduce 把所有 GPU 的梯度求和,使各副本保持一致。吞吐随 GPU 数接近线性扩展,但显存并不下降,因为每台设备仍存整个模型。',
648648
'tensor-parallel': '单个大矩阵乘法按权重矩阵的列块切到多块 GPU 上。每块 GPU 用完整输入乘自己的切片得到部分输出,再由一次 all-gather 把切片拼成完整结果。每 GPU 参数量按 GPU 数下降——单卡放不下的一层就是这样被服务起来的。',

0 commit comments

Comments
 (0)