|
28 | 28 | 'CHAIN RULE': '链式法则', |
29 | 29 | 'CLASS IMBALANCE': '类别不平衡', |
30 | 30 | 'CNN PARAM COUNT': 'CNN 参数量', |
31 | | - 'CONDITIONING': '条件控制', |
| 31 | + 'CONDITIONING': '条件数', |
32 | 32 | 'CONTEXT BUDGET': '上下文预算', |
33 | 33 | 'CONTEXT WINDOW': '上下文窗口', |
34 | 34 | 'CONTINUOUS BATCHING': '连续批处理', |
|
123 | 123 | 'SOFTMAX SCALING': 'Softmax 缩放', |
124 | 124 | 'SOFTMAX TEMPERATURE': 'Softmax 温度', |
125 | 125 | 'SPECTROGRAM WINDOW': '频谱图窗口', |
126 | | - 'SPECULATIVE DECODING': '投机解码', |
| 126 | + 'SPECULATIVE DECODING': '推测解码', |
127 | 127 | 'SUPERVISOR HIERARCHY': '监督者层级', |
128 | 128 | 'SVD LOW-RANK': 'SVD 低秩近似', |
129 | 129 | 'SVM MARGIN': 'SVM 间隔', |
|
142 | 142 | 'VANISHING GRADIENTS': '梯度消失', |
143 | 143 | 'VECTOR PROJECTION': '向量投影', |
144 | 144 | 'WEIGHT INIT VARIANCE': '权重初始化方差', |
145 | | - 'WEIGHT TYING': '权重绑定', |
| 145 | + 'WEIGHT TYING': '权重共享', |
146 | 146 | 'WORD VECTOR ARITHMETIC': '词向量运算', |
147 | 147 | 'WORLD-MODEL ROLLOUT': '世界模型推演', |
148 | 148 | 'ZERO SHARDING': 'ZeRO 分片' |
|
550 | 550 | 'derivative-tangent': '导数就是切线的斜率。对 f(x) = x³ − 3x 它等于 3x² − 3,在 x = ±1 处为零,正是橙线放平的两个临界点。两点之间函数下降,两侧上升。梯度下降读的正是这个斜率来决定往哪边走。', |
551 | 551 | 'chain-rule': '复合函数 y = sin(a x²) 的求导是两个局部斜率相乘:外层的 cos(a x²) 和内层的 2 a x。每根橙色或蓝色的柱子是一个因子;它们的乘积是下方的柱子。反向传播正是一环扣一环地用这条规则把梯度推过整个网络。', |
552 | 552 | 'gaussian-pdf': '均值左右平移钟形曲线;标准差决定它的宽度。σ 越小峰越高越窄,因为总面积恒为 1。阴影带是 μ ± σ,无论曲线在哪,它总是罩住约 68% 的概率。', |
553 | | - 'bayes-update': '贝叶斯的反直觉之处:对一种百里挑一的疾病,95% 准确率的检测呈阳性后,多数人依然是健康的——庞大健康人群贡献的假阳性淹没了寥寥真病例。只有先验高到真病例超过假警报时,后验才会爬升。', |
| 553 | + 'bayes-update': '贝叶斯的反直觉之处:对一种患病率约 1/100 的疾病,95% 准确率的检测呈阳性后,多数人依然是健康的——庞大健康人群贡献的假阳性淹没了寥寥真病例。只有先验高到真病例超过假警报时,后验才会爬升。', |
554 | 554 | 'entropy-kl': '熵 H(p) 度量蓝色分布的平均惊讶度,四个桶相等时达到最大。KL(p‖q) 度量用为 q 设计的编码去编码 p 的样本要多付的比特数;它永不为负,仅在两者一致时为零,且不对称。交叉熵训练最小化的正是这个差距。', |
555 | 555 | 'pca-axes': 'PCA 求的是协方差矩阵的特征向量。蓝轴(PC1)指向散布最大的方向;橙轴(PC2)与之垂直,捕捉剩余的部分。特征值就是各轴上的方差,所以点云越拉长、相关性越强,PC1 解释的方差占比就越高。', |
556 | 556 | 'fourier-synthesis': '任何周期信号都是基频整数倍正弦波的叠加。浅灰曲线是各奇次谐波;蓝色曲线是它们的和。把幅值设为 1、1/3、1/5、1/7,和就开始变方——这是傅里叶级数逼近方波的经典做法。', |
557 | 557 | 'convex-vs-nonconvex': '凸的碗只有一个最小值,梯度下降从任何起点都能到达。非凸地形有好几个山谷:灰色轨迹滚进离它最近的那个,橙点可能停在并非全局最优的局部极小值里。拖动起点,看不同的盆地如何捕获路径。', |
558 | | - 'linear-regression-fit': '每根橙色柱是一个残差,即点到直线的距离。平方后取平均就是均方误差。最小二乘不过是选出让这个平均值最小的斜率和截距。', |
| 558 | + 'linear-regression-fit': '每根橙色柱是一个残差,即数据点与直线在竖直方向上的差距。平方后取平均就是均方误差。最小二乘不过是选出让这个平均值最小的斜率和截距。', |
559 | 559 | 'logistic-sigmoid': '逻辑回归把线性得分压过 sigmoid 得到概率。权重控制曲线转弯的陡峭程度;偏置左右平移它。橙线是决策边界,即概率跨过一半的位置。', |
560 | 560 | 'svm-margin': '支持向量机不只是分开两类,它把边界推到离两边都尽可能远。虚线标出间隔;贴着虚线、金圈圈出的点是支持向量。挪动其它任何点,结果纹丝不动。', |
561 | 561 | 'knn-smoothness': 'k = 1 时预测照抄最近的点,曲线参差不齐,拟合了每一处怪癖。调大 k 会对更多邻居取平均,边界逐渐平滑,k 极大时则趋平于整体类别比例,无视局部结构。', |
|
569 | 569 | 'mlp-forward': '两个输入经固定权重喂给三个隐藏单元,各自被 tanh 压缩,再汇成一个输出。蓝边是正权重,金边是负权重;节点深浅显示在你设定的输入下每个单元的激活强度。', |
570 | 570 | 'backprop-vanishing': '反向传播每过一层就乘上一个激活函数的导数。Sigmoid 的导数上限是 0.25,tanh 也始终小于一,于是深网络里这个乘积塌向零(注意对数坐标轴)。ReLU 对激活的单元保持导数为一,这正是它让深度训练变得可行的原因。', |
571 | 571 | 'optimizer-trajectory': '损失面是一条窄峡谷:沿 x 平缓,沿 y 陡二十倍。朴素 SGD 在陡壁之间来回弹跳,顺谷底爬行。动量平滑了弹跳;Adam 把每个方向归一化,让两个轴以相近速率收敛。', |
572 | | - 'weight-init-variance': '每一层把激活方差乘上 n·Var(w) 的增益。天真的大权重让增益随宽度增长,激活值爆炸(对数轴)。Xavier 取 Var(w)=1/n,He 为 ReLU 取 2/n,都把增益压在一附近,让信号幅度在深度方向保持平稳。', |
| 572 | + 'weight-init-variance': '每一层把激活方差乘上 n·Var(w) 的增益。朴素地取大初始权重,会让增益随宽度增长、激活值爆炸(对数轴)。Xavier 取 Var(w)=1/n,He 为 ReLU 取 2/n,都把增益压在一附近,让信号幅度在深度方向保持平稳。', |
573 | 573 | 'dropout-mask': 'Dropout 每步随机清零比例为 p 的单元,让网络无法依赖任何单个单元。因为只有幸存者传递信号,它们被放大 1/(1−p) 以保持期望激活不变,测试时整层全开、不做缩放。', |
574 | 574 | 'batchnorm-effect': '不管下层送上来的均值和离散度是什么样(灰色),批归一化都会减去批均值、除以批标准差,把分布拉回零均值单位方差(蓝色)。可学习的 γ 和 β 再让网络在需要别的尺度时重新拉伸。', |
575 | 575 | 'learning-curves': '灰色是训练损失,蓝色是验证损失。容量越大训练损失永远越低,但验证损失见底后回升——模型开始记噪声了。拉大的缺口就是过拟合信号;金线标出早停会冻结模型的位置。', |
|
642 | 642 | 'paged-kv-cache': '连续 KV 缓存为每个请求预留满额最大序列长度,大半空置(灰色)。PagedAttention 把缓存放进按需分配的定长页里:只有最后一页部分空闲(橙色)。内部浪费从「上限减实际长度」降到至多一页,这就是分页缓存能在同一块 GPU 上塞进多得多并发序列的原因。', |
643 | 643 | 'expert-capacity': 'MoE 层的每个专家有固定的 token 槽位数,由容量因子决定。路由不均匀,热门专家会溢出,多出的 token 被丢弃(虚线上方的橙色)。因子设太低丢 token 多;设太高则轻载专家闲置、白费填充算力。这个因子就是为了把两头都压小而调的。', |
644 | 644 | 'sliding-window-attention': '行是 query,列是 key。蓝格是 token 真正注意的对子;灰格在因果三角形之内但被窗口切掉;白色是永远被掩蔽的未来。完整因果注意力以 O(N²) 填满整个下三角。宽度 w 的滑动窗口只留对角带,降到 O(N·w),长上下文才付得起。', |
645 | | - 'differential-attention': '差分注意力算两张独立的 softmax 图,把第二张乘上学到的 λ 后从第一张里减去。两张图携带同样的弥散注意力噪声,相减把它当共模信号消掉,而真正的信号峰(这里是 token 2)幸存。调大 λ 减得更狠,注意力质量被收拢到相关 token 上,而不是摊在无关上下文里。', |
| 645 | + 'differential-attention': '差分注意力算两张独立的 softmax 图,把第二张乘上学到的 λ 后从第一张里减去。两张图携带同样的弥散注意力噪声,相减把它当共模信号消掉,而真正的信号峰(这里是 token 2)幸存。调大 λ 减得更狠,注意力权重被收拢到相关 token 上,而不是摊在无关上下文里。', |
646 | 646 | 'weight-tying': '输入嵌入把每个 token id 映射成 d 维向量;输出投影把隐藏向量映射回每个词表条目的 logit。两者都是 vocab×d 的矩阵、扮演互逆角色,所以许多模型把它们绑定:输出层复用转置的嵌入矩阵。这省下整整一块 vocab×d_model 的参数——词表宽达几万 token 时是笔大数目。', |
647 | 647 | 'data-parallel': '每块 GPU 持有完整的模型副本,处理全局批的不同切片。反向传播之后,一次 all-reduce 把所有 GPU 的梯度求和,使各副本保持一致。吞吐随 GPU 数接近线性扩展,但显存并不下降,因为每台设备仍存整个模型。', |
648 | 648 | 'tensor-parallel': '单个大矩阵乘法按权重矩阵的列块切到多块 GPU 上。每块 GPU 用完整输入乘自己的切片得到部分输出,再由一次 all-gather 把切片拼成完整结果。每 GPU 参数量按 GPU 数下降——单卡放不下的一层就是这样被服务起来的。', |
|
0 commit comments