| title | 信息论 | |||
|---|---|---|---|---|
| aliases |
|
|||
| category |
|
|||
| tags |
|
|||
| type | topic | |||
| status | stable | |||
| importance | core | |||
| version | v2.0 | |||
| date | 2026-04-08 |
上帝视角:信息论为 AI 提供了量化不确定性、编码代价与分布差异的度量语言,也由此启发了许多关键目标函数。交叉熵、KL 散度、互信息与最大熵原理确实深刻影响了现代机器学习,但它更准确的角色是“度量与目标设计的来源之一”,而不是单独定义全部学习理论。
- [[01-probability-and-statistics|概率论与数理统计]]:信息论中的熵、互信息与交叉熵都以概率分布为基础
- [[03-calculus-and-optimization|微积分与优化理论]]:交叉熵损失、变分目标与编码效率常通过优化实现
- [[12-signal-processing|信号处理]]:信息的传输、压缩、噪声抑制与编码问题直接连接信号处理
- [[19-linguistics|语言学]]:语言可以被视为一种信息编码系统,统计语言模型与压缩思想高度相关
- [[24-statistical-physics|物理学]]:熵在信息论与统计物理中具有深刻的对应关系
信息论为人工智能提供了一套精确的数学语言,用于描述"不确定性"、"信息量"和"分布之间的距离"。没有信息论,我们甚至无法定义"模型学到了什么"。
- 信息的数学度量:熵(entropy)将"不确定性"从哲学概念变为可计算的数值,使得我们能够量化一个随机变量携带多少信息。
- 交叉熵损失 = 分类任务的标准目标:几乎所有现代分类器——从逻辑回归到 GPT——都使用交叉熵作为损失函数。这不是偶然的工程选择,而是信息论的必然推论。
- KL 散度 = 分布匹配的度量:当我们需要衡量"模型学到的分布"与"真实分布"之间的差距时,KL 散度是最自然的选择。它是 VAE 的正则项、知识蒸馏的目标函数、强化学习中策略更新的约束。
- 互信息 = 表示学习的指导原则:好的特征表示应该保留输入中与任务相关的信息,同时丢弃无关的噪声。互信息精确地量化了这种"相关性"。
| 学科 | 连接点 | 具体体现 |
|---|---|---|
| 概率论(Probability) | 熵和 KL 散度建立在概率分布之上 | 贝叶斯推断中的先验选择(最大熵原理) |
| 编码理论(Coding Theory) | Shannon 编码定理 | 数据压缩、通信系统设计 |
| 统计力学(Statistical Mechanics) | Boltzmann 熵与 Shannon 熵的对应 | Boltzmann 机、能量模型 |
| 神经科学(Neuroscience) | 高效编码假说(efficient coding) | 稀疏编码、预测编码 |
| 统计学(Statistics) | 最大似然估计 ↔ 最小交叉熵 | 模型训练的理论基础 |
| 优化理论(Optimization) | 自然梯度 ↔ Fisher 信息矩阵 | 二阶优化方法 |
信息论最擅长回答的是:
- 一个变量里有多少不确定性;
- 两个分布差得有多大;
- 一个表示到底保留了多少与任务有关的信息;
- 在约束已知时,最不带偏见的分布应该怎样选。
但它通常不单独回答:
- 参数怎样从数据中被高效学到;
- 哪个因果方向才是真正有效的解释;
- 模型为什么在有限样本下泛化得更好。
这些问题仍然需要[[01-probability-and-statistics|概率论与统计学]]、[[03-calculus-and-optimization|优化理论]]和[[09-causal-inference|因果推断]]等学科共同补足。
信息论的诞生并非孤立事件,而是 20 世纪数学、工程和物理学交汇的产物。
-
Ludwig Boltzmann (1877):在统计力学中引入了熵公式:
$$S = k_B \ln W$$ 它将宏观热力学量与微观状态数联系起来。这一公式后来成为 Shannon 熵的灵感来源。
-
Ralph Hartley (1928):在论文 Transmission of Information 中首次提出用对数函数度量信息量:
$$H = n \log s$$ 其中
$n$ 是符号数量,$s$ 是每个符号的可能取值数。这是信息定量化的第一步。
-
Claude Shannon (1948):发表 A Mathematical Theory of Communication,这篇论文被公认为信息论的诞生标志。Shannon 在其中:
-
定义了信息熵:
$$H(X) = -\sum_{x} p(x) \log p(x)$$ -
证明了信源编码定理(source coding theorem):数据压缩的理论极限等于信源的熵
-
证明了信道编码定理(channel coding theorem):存在编码方案使得在有噪信道上以接近信道容量的速率可靠通信
-
引入了冗余度(redundancy)、信道容量(channel capacity)等核心概念
-
-
Shannon & Weaver (1949):出版 The Mathematical Theory of Communication,将技术论文扩展为更广泛的理论框架。
-
Solomon Kullback & Richard Leibler (1951):在论文 On Information and Sufficiency 中提出 KL 散度(Kullback-Leibler divergence),定义了两个概率分布之间的"距离"度量。这一概念后来成为机器学习中最重要的工具之一。
-
Alfréd Rényi (1961):推广了 Shannon 熵,提出 Rényi 熵族:
$$H_\alpha(X) = \frac{1}{1-\alpha} \log \sum_x p(x)^\alpha$$ 其中
$\alpha \to 1$ 时退化为 Shannon 熵。 -
Edwin Jaynes (1957):在 Information Theory and Statistical Mechanics 中提出最大熵原理(Maximum Entropy Principle):在满足已知约束的所有概率分布中,应选择熵最大的那个。这一原理为统计推断提供了信息论基础,也是 softmax 函数的理论来源。
-
Akaike (1974):提出 AIC(Akaike Information Criterion),基于 KL 散度建立了模型选择的信息论准则。
-
Thomas Cover & Joy Thomas (1991):出版经典教材 Elements of Information Theory,系统化了信息论的数学框架。
-
Naftali Tishby, Fernando Pereira & William Bialek (2000):提出信息瓶颈(Information Bottleneck)方法,为深度学习的泛化能力提供了信息论解释框架。
-
Tishby & Zaslavsky (2015):将信息瓶颈理论应用于深度神经网络分析,引发了关于深度学习泛化机制的广泛讨论。
对于离散随机变量
其中对数通常取以 2 为底(单位为 bit)或以 e 为底(单位为 nat)。约定 0 log 0 = 0。
对于连续随机变量,定义微分熵(differential entropy):
-
非负性:
$$H(X) \geq 0$$ (离散情况),等号成立当且仅当
$X$ 为确定性变量。 -
上界:对于取值空间大小为 |X| 的离散变量,
$$H(X) \leq \log |\mathcal{X}|$$ 等号成立当且仅当
$X$ 服从均匀分布。 -
可加性:若
$X, Y$ 独立,则$$H(X, Y) = H(X) + H(Y)$$ -
条件熵:
$$H(X|Y) = H(X, Y) - H(Y) \leq H(X)$$ 即“知道
$Y$ 不会增加$X$ 的不确定性”。
熵可以理解为"最优编码的平均码长"。Shannon 信源编码定理告诉我们:对信源
-
抛一枚公平硬币:
$$H = -\frac{1}{2}\log_2\frac{1}{2} - \frac{1}{2}\log_2\frac{1}{2} = 1 \text{ bit}$$ -
抛一枚不公平硬币($p=0.99$):
$$H \approx 0.081 \text{ bit}$$ 结果几乎确定,信息量很小。
-
掷一个公平骰子:
$$H = \log_2 6 \approx 2.585 \text{ bit}$$
-
决策树分裂准则:ID3 算法使用信息增益(information gain)选择最优分裂特征:
$$IG(Y|X) = H(Y) - H(Y|X)$$ C4.5 使用信息增益比(gain ratio)来修正对多值特征的偏好。
-
特征选择:基于互信息的特征选择方法(如 mRMR)利用熵来评估特征的信息量。
-
数据压缩与表示:自编码器(autoencoder)的瓶颈层可以理解为对输入信息的压缩,其理论极限与熵相关。
给定真实分布
连续情况下:
交叉熵可以分解为熵与 KL 散度之和:
由于
交叉熵可以理解为:如果真实世界按分布
考虑一个
对于 one-hot 标签,这简化为:
其中
二分类的特殊情况(binary cross-entropy):
设数据集由 N 个样本组成,模型参数为 θ。最大似然估计:
取负号后就是最小化交叉熵损失。因此,最小化交叉熵 = 最大似然估计 = 最小化 KL 散度,三者在数学上完全等价。
- 分类任务的标准损失:从逻辑回归到 Transformer,几乎所有分类模型都使用交叉熵损失
- 语言模型训练:GPT 系列模型的预训练目标就是下一个 token 的交叉熵损失
- 梯度性质优越:相比 MSE 损失,交叉熵在 sigmoid/softmax 输出层上的梯度不会出现饱和问题
从分布
连续情况下:
-
非负性(Gibbs 不等式):
$$D_{KL}(P | Q) \geq 0$$ 等号成立当且仅当
$P = Q$ 。 -
非对称性:
$$D_{KL}(P | Q) \neq D_{KL}(Q | P)$$ 因此 KL 散度不是真正的“距离”。
-
不满足三角不等式:
$$D_{KL}(P | R) \not\leq D_{KL}(P | Q) + D_{KL}(Q | R)$$
KL 散度衡量的不是简单的“差了多少”,而是:如果你误把
这两种方向有截然不同的行为:
-
前向 KL(mean-seeking):
$$D_{KL}(P | Q)$$ 当
$P(x) > 0$ 而$Q(x) \to 0$ 时,惩罚趋于无穷。因此$Q$ 倾向于覆盖$P$ 的所有模式,即使这意味着在$P$ 为零的区域也赋予概率。适用于:变分推断中的期望传播(EP)。 -
反向 KL(mode-seeking):
$$D_{KL}(Q | P)$$ 当
$Q(x) > 0$ 而$P(x) \to 0$ 时,惩罚趋于无穷。因此$Q$ 倾向于集中在$P$ 的某个模式上,可能忽略其他模式。适用于:变分推断(VI)。
对于两个一维高斯分布 P 和 Q(分别具有均值 μ₁, μ₂ 和方差 σ₁², σ₂²):
这个闭式解在 VAE 中被广泛使用。
-
VAE 的正则项:变分自编码器(VAE)的损失函数为:
$$\mathcal{L} = \mathbb{E}{q(z|x)}[\log p(x|z)] - D{KL}(q(z|x) | p(z))$$
其中 KL 项约束编码器输出的分布接近先验
$p(z)$ 。 -
知识蒸馏(Knowledge Distillation):Hinton et al. (2015) 使用 KL 散度让学生模型的输出分布匹配教师模型的软标签
-
强化学习中的策略约束:PPO、TRPO 等算法使用 KL 散度约束策略更新的幅度,防止训练不稳定
-
GAN 的理论分析:原始 GAN 的目标函数与 Jensen-Shannon 散度(JSD)相关,而 JSD 是 KL 散度的对称化版本
随机变量
等价表达:
也可以写成 KL 散度的形式:
其中:
- p(x,y) 是联合分布
- p(x)p(y) 是在独立假设下的分布乘积
- KL 散度衡量联合分布与独立分布之间的偏离程度
即联合分布与边际分布乘积之间的 KL 散度。
-
非负性:
$$I(X; Y) \geq 0$$ 等号成立当且仅当
$X$ 和$Y$ 独立。 -
对称性:
$$I(X; Y) = I(Y; X)$$ -
与熵的关系:
$$I(X; Y) \leq \min(H(X), H(Y))$$ -
数据处理不等式(Data Processing Inequality):若
$X \to Y \to Z$ 构成马尔可夫链,则:$$I(X; Z) \leq I(X; Y)$$ 这意味着对数据的任何处理都不会增加信息量。
互信息衡量的是"知道
设
- 知道
$X_1$ 后,标签的不确定性显著下降; - 知道
$X_2$ 后,标签的不确定性几乎不变;
那么就可以说
- 特征选择:互信息可以衡量特征 X 与标签 Y 之间的相关性,且不限于线性关系。mRMR(minimum Redundancy Maximum Relevance)算法同时最大化特征与标签的互信息、最小化特征之间的冗余。
- 表示学习:InfoNCE 损失(van den Oord et al., 2018)是互信息的下界估计,被广泛用于对比学习(contrastive learning)。CPC(Contrastive Predictive Coding)通过最大化当前表示与未来观测之间的互信息来学习有用的表示。
- 信息论正则化:在表示学习中,可以通过约束表示 Z 与输入 X 的互信息来控制表示的复杂度,防止过拟合。
- 独立性检测:互信息为零等价于统计独立,因此可用于检测变量之间的依赖关系。
一旦把表示
I(T; Y)大,表示T对任务有用;I(T; X)过大,表示T可能把无关细节也一起记住了。
这正是信息瓶颈、对比学习与许多自监督方法的共同出发点。它们并不一定直接优化真正的互信息,但都在寻找“保留有用信息、压缩无关信息”的可训练代理目标。
Naftali Tishby 等人在 2000 年提出的信息瓶颈方法,为"什么是好的表示"提供了信息论的回答。
给定输入
其中:
-
$I(X; T)$ :表示的复杂度(压缩程度)— 越小越好 -
$I(T; Y)$ :表示保留的任务相关信息 — 越大越好 -
$\beta$ :权衡参数,控制压缩与保留之间的平衡
这个优化问题的解形成一条"信息曲线"(information curve),类似于率失真理论(rate-distortion theory)中的率失真曲线。
信息瓶颈的目标不是把输入记得越多越好,而是只保留对任务真正有用的信息。好的表示应该像压缩过的摘要:舍弃噪声和冗余,但保留预测目标所需的核心结构。
Shwartz-Ziv & Tishby (2017) 将信息瓶颈理论应用于深度神经网络的分析,提出了两个引人注目的观察:
-
拟合阶段(fitting phase):训练初期,网络层的
$I(T; Y)$ 快速增加,网络在学习任务相关的信息 - 压缩阶段(compression phase):训练后期,$I(X; T)$ 逐渐减小,网络在丢弃与任务无关的信息
这一"先拟合后压缩"的动态过程被认为是深度学习泛化能力的来源。不过,这一理论也引发了争议:Saxe et al. (2018) 指出压缩现象可能依赖于激活函数的选择(在 ReLU 网络中不明显),且互信息的估计方法本身存在困难。
- 表示学习的理论指导:信息瓶颈为"好的表示应该是什么样的"提供了原则性的回答
- 深度学习理论:为理解深度网络的泛化能力提供了新视角
- VIB(Variational Information Bottleneck):Alemi et al. (2017) 将信息瓶颈转化为可训练的变分目标,直接用于深度学习模型的正则化
Edwin Jaynes (1957) 提出:在满足已知约束条件的所有概率分布中,应选择熵最大的那个分布。
形式化地,给定约束
使用拉格朗日乘子法求解,得到指数族分布(exponential family):
其中
最大熵原理的精神是:当信息不足时,不要额外臆造结构;只把已知约束编码进去,其余部分保持尽可能“无偏”。这也是为什么它常被视为最稳健的分布选择原则。
- 无约束:最大熵分布是均匀分布
- 给定均值和方差:最大熵分布是高斯分布
- 给定均值(非负变量):最大熵分布是指数分布
例如,如果我们只知道某个等待时间变量非负且均值为 10,却不知道更多结构,那么最大熵原理会给出指数分布
它的含义不是“世界一定服从指数分布”,而是“在已知信息只有这些时,这是最少额外假设的一种选择”。
考虑
这正是 softmax 函数。因此,softmax 回归(多类逻辑回归)本质上是最大熵分类器。
- Softmax 回归:最大熵原理的直接应用
- 最大熵语言模型:在统计自然语言处理时代(2000 年代),最大熵模型是主流方法之一
- 贝叶斯推断中的先验选择:最大熵原理为"无信息先验"(uninformative prior)提供了理论依据
- 正则化的信息论解释:L2 正则化可以理解为对参数分布施加高斯先验,而高斯分布是给定方差约束下的最大熵分布
信息论对 AI 的贡献远不止提供几个损失函数。它从根本上塑造了我们理解和构建智能系统的方式。
| 损失函数 | 信息论来源 | 应用场景 |
|---|---|---|
| 交叉熵损失 | 分类、语言模型 | |
| 二元交叉熵 | 二值分布的 |
二分类、多标签分类 |
| KL 散度损失 | VAE 正则项、知识蒸馏 | |
| InfoNCE 损失 | 互信息下界 | 对比学习(SimCLR、MoCo) |
| Focal Loss | 加权交叉熵 | 类别不平衡问题 |
信息论为生成模型提供了理论框架:
- VAE(Variational Autoencoder):ELBO(Evidence Lower Bound)= 重构项 - KL 正则项。KL 项确保潜在空间的结构化。
-
GAN(Generative Adversarial Network):原始 GAN 的目标函数等价于最小化 Jensen-Shannon 散度
$JSD(P_{data} | P_{model})$ 。后续的 f-GAN 将其推广到任意 f-散度。 - Flow 模型:通过可逆变换精确计算对数似然,直接优化交叉熵。
- 扩散模型(Diffusion Models):训练目标可以理解为变分下界,与 VAE 的 ELBO 有深刻联系。
-
对比学习:SimCLR、MoCo 等方法的核心思想是最大化正样本对之间的互信息,同时最小化与负样本的互信息。InfoNCE 损失是互信息
$I(X; Y)$ 的下界。 - BYOL 与信息论:即使没有负样本,BYOL 也能学到好的表示,这可以从信息论角度理解为隐式地最大化表示与输入的互信息。
- 掩码语言模型(MLM):BERT 的 MLM 目标可以理解为最大化上下文与被掩码 token 之间的互信息。
- 知识蒸馏:教师模型的软标签包含比硬标签更多的信息(更高的熵),学生模型通过匹配教师的输出分布(最小化 KL 散度)来学习这些"暗知识"(dark knowledge)。
- 剪枝的信息论视角:可以将网络剪枝理解为去除信息冗余的过程,保留对输出互信息贡献最大的连接。
- 量化:将权重从高精度量化到低精度,本质上是一个率失真问题。
- 困惑度(Perplexity):语言模型的标准评估指标,定义为交叉熵的指数形式。困惑度越低,模型越好。
- BPE 与信息论:Byte Pair Encoding 分词算法可以理解为一种基于频率的编码方案,与 Shannon 的信源编码思想一脉相承。
- 注意力机制的信息论解释:注意力权重可以理解为在信息论意义上选择最相关的上下文信息。
在高维空间中精确估计互信息是一个根本性的困难问题。现有方法包括:
- MINE(Mutual Information Neural Estimation):Belghazi et al. (2018) 使用神经网络估计互信息的 Donsker-Varadhan 下界
- InfoNCE:提供了互信息的下界,但在高维空间中可能非常松
- 核心挑战:互信息估计的方差随维度指数增长,使得基于互信息的目标函数在实践中难以优化
- 因果熵:将信息论概念扩展到因果关系的度量
- 信息论因果性:Granger 因果性可以用条件互信息来表达
- 干预与信息:Pearl 的 do-calculus 与信息论的结合是活跃的研究方向
- 量子熵:von Neumann 熵是 Shannon 熵在量子力学中的推广
- 量子纠缠与互信息:量子互信息可以捕捉经典互信息无法描述的量子关联
- 量子机器学习:量子信息论为量子计算在 AI 中的应用提供理论基础
- Scaling Laws 的信息论解释:为什么模型性能随参数量、数据量的幂律关系增长?信息论能否给出解释?
- 上下文学习(In-Context Learning)的信息论分析:大模型如何在推理时从上下文中提取信息?
- 幻觉问题:模型生成不忠实内容是否可以用信息论来分析和缓解?
- 数据质量与信息密度:高质量数据的信息密度更高,如何用信息论指导数据筛选?
- 差分隐私的信息论基础:差分隐私机制可以用互信息来分析其隐私保证
- 联邦学习中的信息泄露:如何量化梯度共享过程中泄露的信息量?
- 信息论安全:Shannon 的完美保密性(perfect secrecy)概念在现代密码学中的延续
- Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.
- Kullback, S., & Leibler, R. A. (1951). On Information and Sufficiency. Annals of Mathematical Statistics, 22(1), 79-86.
- Jaynes, E. T. (1957). Information Theory and Statistical Mechanics. Physical Review, 106(4), 620-630.
- Tishby, N., Pereira, F. C., & Bialek, W. (2000). The Information Bottleneck Method. arXiv preprint physics/0004057.
- Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv:1503.02531.
- Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes. ICLR 2014.
- van den Oord, A., Li, Y., & Vinyals, O. (2018). Representation Learning with Contrastive Predictive Coding. arXiv:1807.03748.
- Shwartz-Ziv, R., & Tishby, N. (2017). Opening the Black Box of Deep Neural Networks via Information. arXiv:1703.00810.
- Alemi, A. A., Fischer, I., Dillon, J. V., & Murphy, K. (2017). Deep Variational Information Bottleneck. ICLR 2017.
- Belghazi, M. I., et al. (2018). Mutual Information Neural Estimation. ICML 2018.
- Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley. — 信息论的标准教材,数学严谨,覆盖全面。
- MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press. — 将信息论与机器学习紧密结合,免费在线阅读。
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. — 第 1.6 节和第 10 章对信息论在机器学习中的应用有精彩阐述。
- Visual Information Theory — Chris Olah 的经典博文,用可视化方式解释信息论核心概念
- Information Theory for Machine Learning — Ferenc Huszár 的博客,深入探讨信息论与深度学习的交叉
本篇介绍了信息论对 AI/AGI 发展的核心贡献:提供了量化信息、度量不确定性和优化信息传递的数学工具,从损失函数设计到模型压缩,从表示学习到生成模型。
与相邻篇章的关系:
- 与[[01-probability-and-statistics|概率论与数理统计]]共同构成信息处理的理论基础:熵、KL 散度等核心概念都建立在概率分布之上
- 与[[03-calculus-and-optimization|微积分与优化理论]]在变分推断上形成连接:ELBO 是信息论与优化的结合
- 与[[09-causal-inference|因果推断]]在因果发现上相关:条件独立性测试依赖互信息
- 与[[12-signal-processing|信号处理]]在编码理论上紧密相关:信源编码、信道编码是信息论的经典应用
- 与[[24-statistical-physics|统计物理]]在熵概念上形成连接:Shannon 熵可视为 Boltzmann 熵的推广
贡献边界: 信息论主要解决了如何量化和优化信息传递,但在以下方面存在局限:(1)语义信息:Shannon 信息论只关注符号的统计特性,不涉及信息的"意义",这在自然语言处理和知识表示中是不足的;(2)计算复杂性:许多信息论量(如互信息、KL 散度)在高维连续空间中难以精确计算,需要近似方法;(3)因果关系:信息论主要描述统计依赖,不能直接推断因果关系,需要因果推断的补充;(4)优化目标:信息论提供了度量工具,但如何将这些度量转化为可优化的目标函数,如何平衡不同的信息论目标(如压缩与保真度),仍需要优化理论和领域知识。因此,信息论为 AI 提供了核心的度量工具,但需要与概率论、优化理论、因果推断等学科结合才能构建完整的智能系统。