Skip to content

Latest commit

 

History

History
655 lines (404 loc) · 38 KB

File metadata and controls

655 lines (404 loc) · 38 KB
title 概率论与数理统计
aliases
Probability Theory and Mathematical Statistics
category
数学与形式基础
tags
ai-foundations
math
probability
type topic
status stable
importance core
version v2.0
date 2026-04-08

概率论与数理统计(Probability Theory and Mathematical Statistics):从起源到 AI 的完整脉络

上帝视角:概率论与数理统计共同构成机器学习处理不确定性的核心语言。概率论负责描述随机机制与分布结构,数理统计负责从有限样本中做估计、检验与评估。从贝叶斯推断到最大似然,从 EM 算法到 A/B 测试,这两条主线一起支撑了现代 AI 对不确定世界的建模与决策。


相关主题

  • [[04-information-theory|信息论]]:熵、KL 散度、互信息等核心概念都建立在概率分布之上
  • [[03-calculus-and-optimization|微积分与优化理论]]:最大似然估计、变分推断与参数学习都依赖优化方法
  • [[09-causal-inference|因果推断]]:概率描述相关性,因果推断进一步回答"为什么会发生"
  • [[13-cybernetics|控制论]]:卡尔曼滤波、状态估计与贝叶斯决策是概率论在动态系统中的体现
  • [[16-neuroscience|神经科学]]:贝叶斯脑假说、预测编码与不确定性感知都与概率建模密切相关

1. 上帝视角:为什么 AI 需要概率论

1.1 解决了 AI 中的什么根本问题?

概率论为 AI 解决了三大根本问题:

  • 不确定性建模(Uncertainty Modeling):现实世界充满噪声和不完整信息。传感器有误差,数据有缺失,用户意图模糊。概率论提供了一套严格的数学框架,让机器能够量化"我有多不确定",而不是简单地给出"是"或"否"。
  • 参数估计(Parameter Estimation):神经网络有数十亿参数,如何从有限数据中估计这些参数?最大似然估计(MLE)、最大后验估计(MAP)、贝叶斯推断——这些都是概率论的核心工具。
  • 生成模型(Generative Models):从 GPT 到 Stable Diffusion,生成式 AI 的本质是学习数据的概率分布 $P(x)$,然后从中采样。没有概率论,就没有生成模型。

1.2 如果没有概率论,AI 会缺失什么能力?

  • 无法区分"确信的预测"和"不确信的预测"——自动驾驶系统无法判断何时应该交给人类接管
  • 无法处理缺失数据和噪声——所有现实世界的数据集都不完美
  • 无法进行因果推断——只能发现相关性,不能理解因果
  • 无法生成新内容——没有概率分布的概念,就无法"采样"出新图像、新文本
  • 无法进行模型选择和正则化——奥卡姆剃刀原则的数学表达依赖贝叶斯框架

1.3 与其他学科的关键连接点

学科 连接点 具体体现
信息论(Information Theory) 熵、KL 散度、互信息都建立在概率分布之上 交叉熵损失函数、变分推断中的 ELBO
优化理论(Optimization Theory) MLE 将参数估计转化为优化问题 梯度下降最大化对数似然、EM 算法
控制论(Control Theory) 卡尔曼滤波是贝叶斯推断在动态系统中的应用 状态估计、强化学习中的部分可观测问题
神经科学(Neuroscience) 大脑被认为是一台贝叶斯推断机器 自由能原理(Free Energy Principle)、预测编码(Predictive Coding)
线性代数(Linear Algebra) 协方差矩阵、特征分解、概率 PCA 高斯分布的参数化、降维方法
逼近论(Approximation Theory) 概率分布的函数逼近、核密度估计 非参数贝叶斯方法、高斯过程

1.4 概率建模与统计推断是两条并行主线

本篇标题同时包含“概率论”和“数理统计”,两者在 AI 中最好分开理解:

  • 概率论回答“如果模型与参数已知,数据大致会如何出现”;
  • 数理统计回答“如果只看到有限数据,我们该如何反推参数、比较模型并报告不确定性”。

前者更像建模语言,后者更像从数据到结论的方法学。机器学习实践里二者几乎总是一起出现:我们先假设一个概率模型,再用统计推断去估计、检验和评估它。


2. 历史脉络:关键人物与里程碑

概率论的发展横跨四个世纪,从赌博问题到公理化体系,再到机器学习的核心工具。

2.1 萌芽期:从赌博到数学(1654—1812)

  • 1654 年 — Pascal & Fermat 通信:概率论的诞生。法国赌徒 Chevalier de Méré 向 Blaise Pascal 提出"点数问题"(Problem of Points):两个赌徒在游戏中途停止,如何公平分配赌注?Pascal 与 Pierre de Fermat 的通信中,首次用数学方法系统处理随机事件,奠定了组合概率的基础。

  • 1713 年 — Jacob Bernoulli《猜度术》(Ars Conjectandi):提出大数定律(Law of Large Numbers)的最早形式。证明了随着试验次数增加,频率趋近于概率。这是频率学派的理论基石。

  • 1733 年 — Abraham de Moivre:发现正态分布(Normal Distribution)的早期形式,作为二项分布的近似。后来由 Carl Friedrich Gauss 进一步发展,因此也称高斯分布(Gaussian Distribution)。

  • 1763 年 — Thomas Bayes 遗作发表:Richard Price 整理发表了 Bayes 的论文《An Essay towards solving a Problem in the Doctrine of Chances》。提出了贝叶斯定理(Bayes' Theorem)的原始形式:如何根据新证据更新对假设的信念。这篇论文在当时并未引起广泛关注,但两百年后成为机器学习的核心。

  • 1812 年 — Pierre-Simon Laplace《概率的分析理论》(Théorie analytique des probabilités):独立重新发现并推广了贝叶斯定理,将概率论发展为一门系统的数学学科。提出"拉普拉斯平滑"(Laplace Smoothing)的思想——在没有先验信息时使用均匀先验,这一思想至今仍在自然语言处理中广泛使用。

2.2 公理化与现代化(1900—1950)

  • 1900 年 — Karl Pearson:发展了卡方检验(Chi-squared Test)、相关系数(Correlation Coefficient)等统计工具,创立了现代统计学的基础。创办《Biometrika》期刊。

  • 1922 年 — Ronald A. Fisher:提出最大似然估计(Maximum Likelihood Estimation, MLE),发表《On the Mathematical Foundations of Theoretical Statistics》。Fisher 还发展了充分统计量、Fisher 信息量等核心概念。MLE 后来成为训练几乎所有机器学习模型的基本方法。

  • 1933 年 — Andrey Kolmogorov《概率论基础》(Grundbegriffe der Wahrscheinlichkeitsrechnung):用测度论(Measure Theory)为概率论建立了严格的公理化基础。三条公理:非负性、规范性、可列可加性。这一框架统一了之前所有的概率理论,使概率论成为现代数学的一个分支。

  • 1946 年 — Andrey Markov(子)& Monte Carlo 方法:Stanislaw Ulam 和 John von Neumann 在洛斯阿拉莫斯国家实验室开发了蒙特卡洛方法(Monte Carlo Method),用随机采样解决确定性数学问题。这一方法后来演变为 MCMC,成为贝叶斯计算的核心工具。

2.3 信息时代(1948—1990)

  • 1948 年 — Claude Shannon《通信的数学理论》:将概率论应用于通信,定义了熵(Entropy): $$H(X) = -\sum_i P(x_i) \log P(x_i)$$ 并建立了信息论。Shannon 熵本质上是概率分布的一个泛函,信息论可以看作概率论的一个应用分支。

  • 1953 年 — Nicholas Metropolis 等人:提出 Metropolis 算法,这是 MCMC(Markov Chain Monte Carlo)的第一个实用算法。论文《Equation of State Calculations by Fast Computing Machines》最初用于物理模拟,后来成为贝叶斯统计的计算引擎。

  • 1970 年 — W. Keith Hastings:将 Metropolis 算法推广为 Metropolis-Hastings 算法,允许非对称提议分布,极大扩展了 MCMC 的适用范围。

  • 1977 年 — Arthur Dempster, Nan Laird, Donald Rubin:发表《Maximum Likelihood from Incomplete Data via the EM Algorithm》,提出期望最大化算法(Expectation-Maximization, EM)。EM 算法解决了含隐变量模型的参数估计问题,成为训练高斯混合模型(GMM)、隐马尔可夫模型(HMM)等的标准方法。

  • 1984 年 — Stuart Geman & Donald Geman:提出 Gibbs 采样(Gibbs Sampling),一种特殊的 MCMC 方法。论文《Stochastic Relaxation, Gibbs Distributions, and the Bayesian Restoration of Images》将贝叶斯方法引入计算机视觉。

  • 1988 年 — Judea Pearl《Probabilistic Reasoning in Intelligent Systems》:系统化了贝叶斯网络(Bayesian Networks)理论,提出了信念传播(Belief Propagation)算法。Pearl 后来因因果推断(Causal Inference)的工作获得 2011 年图灵奖。

2.4 机器学习时代(1990—至今)

  • 1996 年 — David MacKay《Bayesian Methods for Adaptive Models》:系统阐述了贝叶斯方法在神经网络中的应用,包括模型选择、正则化的贝叶斯解释。

  • 1998 年 — Michael Jordan 等人:推动了变分推断(Variational Inference)在机器学习中的应用,将贝叶斯推断从 MCMC 的计算瓶颈中解放出来。

  • 2003 年 — David Blei, Andrew Ng, Michael Jordan:提出隐狄利克雷分配(Latent Dirichlet Allocation, LDA),将贝叶斯方法应用于主题模型,成为自然语言处理的里程碑。

  • 2014 年 — Diederik Kingma & Max Welling:提出变分自编码器(Variational Autoencoder, VAE),将变分推断与深度学习结合,开创了深度生成模型的新范式。VAE 的核心是最大化证据下界(ELBO),这是纯粹的概率论概念。

  • 2015 年 — Yarin Gal & Zoubin Ghahramani:提出 MC Dropout,证明 Dropout 可以解释为贝叶斯近似推断,为深度学习的不确定性估计提供了实用方法。

  • 2020 年 — 扩散模型(Diffusion Models):Jonathan Ho 等人的 DDPM(Denoising Diffusion Probabilistic Models)将概率论中的随机过程理论应用于图像生成,其数学基础是马尔可夫链和变分推断。


3. 核心知识点详解

3.1 贝叶斯推断(Bayesian Inference)

数学定义

贝叶斯定理的核心公式:

$$P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}$$

其中:

  • $\theta$ — 模型参数(我们想要估计的未知量)
  • $D$ — 观测数据
  • $P(\theta)$先验分布(Prior):在看到数据之前,我们对参数的信念
  • $P(D \mid \theta)$似然函数(Likelihood):给定参数,观测到数据的概率
  • $P(\theta \mid D)$后验分布(Posterior):在看到数据之后,我们对参数的更新信念
  • $P(D) = \int P(D \mid \theta)P(\theta)d\theta$边际似然(Evidence):数据的总概率,起归一化作用

直觉理解:先验 → 数据 → 后验的认知更新过程

贝叶斯推断的本质是一个认知更新过程,可以用一个日常类比来理解:

  1. 先验:你对某件事有一个初始判断(比如"这枚硬币大概是公平的")
  2. 数据:你观察到一些证据(抛了 10 次,8 次正面)
  3. 后验:你根据证据更新了判断("这枚硬币可能偏向正面")

关键洞察:贝叶斯推断是序贯的——今天的后验就是明天的先验。随着数据不断积累,后验分布会越来越集中在真实参数附近,先验的影响逐渐消失。这就是为什么贝叶斯方法在小样本时特别有价值——先验提供了正则化效果。

共轭先验(Conjugate Priors)

当先验和后验属于同一分布族时,称先验为似然的共轭先验。最经典的例子:

  • Beta-Bernoulli 共轭:Beta 先验 + 伯努利似然 → Beta 后验

    • 先验:

      $$\theta \sim \mathrm{Beta}(\alpha, \beta)$$

    • 数据:进行 n 次试验,其中成功 k 次

    • 后验:

      $$\theta \mid D \sim \mathrm{Beta}(\alpha + k, \beta + n - k)$$

  • Normal-Normal 共轭:正态先验 + 正态似然 → 正态后验

  • Dirichlet-Multinomial 共轭:LDA 主题模型的数学基础

在 AI 中的角色

  • 贝叶斯神经网络(Bayesian Neural Networks):对网络权重赋予概率分布而非点估计,能够量化预测的不确定性。Blundell 等人 (2015) 的"Bayes by Backprop"方法使贝叶斯神经网络的训练变得可行。
  • 贝叶斯优化(Bayesian Optimization):用高斯过程作为代理模型,通过贝叶斯推断选择下一个超参数评估点。这是自动机器学习(AutoML)的核心技术。
  • 不确定性估计(Uncertainty Estimation):在医疗诊断、自动驾驶等安全关键领域,模型不仅要给出预测,还要说明"我有多确信"。

代码演示:参见 code/math-foundations/bayesian_inference.py — 硬币抛掷的贝叶斯估计 vs 频率估计对比

3.2 最大似然估计(Maximum Likelihood Estimation, MLE)与 EM 算法

MLE 的数学定义

给定独立同分布的观测数据 $D = {x_1, x_2, \ldots, x_n}$,最大似然估计寻找使数据出现概率最大的参数:

$$\hat{\theta}_{MLE} = \arg\max_\theta P(D|\theta) = \arg\max_\theta \prod_{i=1}^{n} P(x_i|\theta)$$

其中:

  • $D = {x_1, \ldots, x_n}$ 表示观测样本
  • $P(x_i \mid \theta)$ 表示参数 $\theta$ 下观测 $x_i$ 的似然
  • $\hat{\theta}_{MLE}$ 是使得全样本似然最大的参数

实践中通常最大化对数似然(Log-Likelihood),因为乘积变求和,数值更稳定:

$$\hat{\theta}_{MLE} = \arg\max_\theta \sum_{i=1}^{n} \log P(x_i|\theta)$$

其中:

  • 对数似然将乘积转为求和,使得数值更稳定
  • 其他符号同上

直觉理解

MLE 的哲学很简单:选择那个让已观测数据"最不意外"的参数。如果你抛硬币 100 次得到 70 次正面,MLE 估计 $\hat{p} = 0.7$,因为在 $p=0.7$ 时,这个结果出现的概率最大。

MLE 与贝叶斯估计的关系:当使用均匀先验时,最大后验估计(MAP)退化为 MLE。换言之,MLE 是贝叶斯框架中"无信息先验"的特例。

EM 算法的 E 步和 M 步

当模型包含隐变量 $Z$ 时,直接最大化似然通常不可行(求和/积分难以计算):

$$P(D \mid \theta) = \sum_Z P(D, Z \mid \theta)$$

EM 算法通过迭代两步来解决:

E 步(Expectation Step):固定当前参数 $\theta^{(t)}$,计算隐变量的后验分布,构造期望对数似然:

$$Q(\theta|\theta^{(t)}) = \mathbb{E}_{Z|D,\theta^{(t)}}[\log P(D, Z|\theta)]$$

其中:

  • $Z$ 是隐变量
  • $Q(\theta \mid \theta^{(t)})$ 是在当前参数下的期望对数似然
  • 期望是在隐变量的后验分布下计算的

M 步(Maximization Step):最大化 $Q$ 函数,更新参数:

$$\theta^{(t+1)} = \arg\max_\theta Q(\theta|\theta^{(t)})$$

其中:

  • $Q(\theta \mid \theta^{(t)})$ 在 E 步计算得到
  • 迭代直到对数似然收敛或达到最大迭代次数

EM 算法保证每次迭代不会降低似然值(单调性),但只保证收敛到局部最优。

在 AI 中的角色

  • 高斯混合模型(Gaussian Mixture Model, GMM):经典的聚类算法,隐变量是每个数据点的类别归属。EM 算法交替估计类别归属概率(E 步)和更新各高斯分量的参数(M 步)。
  • 隐马尔可夫模型(Hidden Markov Model, HMM):语音识别的经典模型,Baum-Welch 算法本质上就是 EM 算法在 HMM 上的特例。
  • 变分自编码器(VAE)的 ELBO:VAE 的训练目标——证据下界(Evidence Lower Bound)——可以看作 EM 算法的变分推断版本。E 步对应编码器推断隐变量,M 步对应解码器重构数据。

代码演示:参见 code/ml-algorithms/em_algorithm.py — 高斯混合模型的 EM 算法实现

3.3 马尔可夫链与 MCMC

马尔可夫性质与转移矩阵

马尔可夫链(Markov Chain)是一类满足马尔可夫性质(无记忆性)的随机过程:

$$P(X_{t+1}|X_t, X_{t-1}, \ldots, X_1) = P(X_{t+1}|X_t)$$

其中:

  • $X_t$ 表示第 $t$ 时刻的状态
  • 条件概率表明未来只依赖当前状态,过去信息的影响被"忘记"

即未来状态只依赖于当前状态,与历史无关。马尔可夫链由转移矩阵 $T$ 完全描述:

$$T_{ij} = P(X_{t+1} = j | X_t = i)$$

其中:

  • $T_{ij}$ 是从状态 $i$ 转移到状态 $j$ 的概率
  • 每一行之和为 1,描述概率流的守恒

关键定理:Doob (1953) 在极限概率理论中证明,如果马尔可夫链是不可约的(任意状态可达)且非周期的,则存在唯一的平稳分布,并满足:

$$\pi T = \pi$$

Kemeny & Snell (1960) 又在可还原链的上下文中对相关结论做了系统讨论。

MCMC 采样

MCMC(Markov Chain Monte Carlo)的核心思想:构造一条马尔可夫链,使其平稳分布恰好是我们想要采样的目标分布 $P(\theta \mid D)$。运行足够长时间后,链上的样本就近似服从目标分布。

Metropolis-Hastings 算法

  1. 从当前状态出发,根据提议分布生成候选状态:

    $$\theta^{(t)} \xrightarrow{;q(\theta' \mid \theta^{(t)});} \theta'$$

  2. 计算接受概率: $$\alpha = \min\left(1, \frac{P(\theta' \mid D) \cdot q(\theta^{(t)} \mid \theta')}{P(\theta^{(t)} \mid D) \cdot q(\theta' \mid \theta^{(t)})}\right)$$

    其中:

    • $q(\theta' \mid \theta^{(t)})$ 是从当前状态提出候选的提议分布
    • 分式的比值使得链的平稳分布恰为目标后验 $P(\theta \mid D)$
    • $\min(1, \cdot)$ 保证接受率不超过 1
  3. 以接受概率决定是否采纳候选状态;若不接受,则保持当前状态。

Gibbs 采样:Metropolis-Hastings 的特例,每次只更新一个维度,从条件分布中采样:

$$\theta_i^{(t+1)} \sim P(\theta_i | \theta_1^{(t+1)}, \ldots, \theta_{i-1}^{(t+1)}, \theta_{i+1}^{(t)}, \ldots, \theta_d^{(t)}, D)$$

其中:

  • 每次只更新一个维度 $i$,其余维度保持最新状态
  • 条件分布来自 $D$ 下其他变量的当前值,使接受率恒为 1

Gibbs 采样的接受率恒为 1,但要求能够从条件分布中直接采样。

直觉理解

蒙特卡洛链是一个"采样脚本":每一步先提出下一个候选,再根据目标分布决定是否接受。若候选点落在高概率区域,就更容易被接受,链会在该区域徘徊;若落在低概率区域,就会被拒绝,从而停留在旧点。长期下来,链上的点就按真实分布出现,想要得到平稳分布只需让链运行足够久。

在 AI 中的角色

  • 序列模型:马尔可夫性质是 RNN、Transformer 中自回归生成的理论基础。语言模型 $P(w_t \mid w_{<t})$ 本质上是在建模一个(高阶)马尔可夫过程。
  • 扩散模型(Diffusion Models):DDPM 的前向过程是一条马尔可夫链,逐步向数据添加高斯噪声;反向过程也是马尔可夫链,逐步去噪。整个框架的数学基础是马尔可夫链的转移核和平稳分布理论。
  • 强化学习:马尔可夫决策过程(Markov Decision Process, MDP)是强化学习的数学框架,状态转移满足马尔可夫性质。
  • 贝叶斯深度学习:当变分推断不够精确时,MCMC 提供了渐近精确的后验采样方法。随机梯度 Langevin 动力学(SGLD)将 MCMC 与随机梯度下降结合,使大规模贝叶斯推断成为可能。

3.4 概率图模型(Probabilistic Graphical Models)

概率图模型用图结构表示随机变量之间的依赖关系,将高维联合分布分解为局部条件分布的乘积。

贝叶斯网络(Bayesian Networks)— 有向图模型

贝叶斯网络是有向无环图(DAG),每个节点代表一个随机变量,有向边表示因果或依赖关系。联合分布分解为:

$$P(X_1, X_2, \ldots, X_n) = \prod_{i=1}^{n} P(X_i | \text{Parents}(X_i))$$

Pearl (1988) 提出的信念传播(Belief Propagation)算法可以在树结构的贝叶斯网络上进行精确推断。对于一般图结构,需要使用近似推断方法(变分推断或 MCMC)。

直觉理解

概率图模型的核心价值,是把一个高维联合分布拆成许多局部依赖关系。图上的边告诉你“哪些变量直接相关”,而图上的分解则让原本难以处理的整体概率问题变成局部推断与消息传递问题。

马尔可夫随机场(Markov Random Fields, MRF)— 无向图模型

马尔可夫随机场使用无向图表示变量间的对称依赖关系。联合分布通过势函数(Potential Functions)定义:

$$P(X) = \frac{1}{Z} \prod_{c \in \mathcal{C}} \psi_c(X_c)$$

其中:

  • $Z$ 是配分函数(Partition Function)
  • 团集合记为 C(Cliques)
  • 团势函数记为 ψ_c

在 AI 中的角色

  • 结构化预测(Structured Prediction):条件随机场(Conditional Random Field, CRF)是判别式的无向图模型,广泛用于序列标注(命名实体识别、词性标注)。BiLSTM-CRF 曾是 NLP 序列标注的标准架构。
  • 因果推断(Causal Inference):Pearl 的因果层级(关联→干预→反事实)建立在贝叶斯网络之上。do-calculus 提供了从观测数据推断因果效应的数学工具。这是当前 AI 从"相关性"走向"因果性"的关键理论。
  • 知识图谱推理:概率图模型为知识图谱中的不确定性推理提供了理论框架。
  • 生成模型:VAE 可以看作一种深度概率图模型,编码器和解码器分别对应推断网络和生成网络。

3.5 交叉熵与 KL 散度的概率论视角

从概率论角度理解信息论概念

**KL 散度(Kullback-Leibler Divergence)**衡量两个概率分布之间的"距离":

$$D_{KL}(P | Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)} = \mathbb{E}_{P}\left[\log \frac{P(x)}{Q(x)}\right]$$

其中:

  • $P(x)$ 是真实分布
  • $Q(x)$ 是模型近似分布
  • 期望 $\mathbb{E}_P$ 强调这是在真实分布下测量的信息损失

KL 散度的概率论解释:如果真实分布是 $P$,而我们用 $Q$ 来近似它,那么这种近似带来的信息损失可以写为:

$$D_{KL}(P \parallel Q)$$

KL 散度非负(Gibbs 不等式),且当且仅当 $P = Q$ 时为零。

交叉熵(Cross-Entropy)

$$H(P, Q) = -\sum_x P(x) \log Q(x) = H(P) + D_{KL}(P | Q)$$

其中:

  • 真实分布的熵为:

    $$H(P) = -\sum_{x} P(x)\log P(x)$$

  • 交叉熵与真实熵之间的差值记为:

    $$D_{KL}(P \parallel Q)$$

  • 固定真实分布后,最小化交叉熵等价于最小化 KL 散度,也就是让模型分布 $Q$ 逼近真实分布。

其中 $H(P)$$P$ 的熵。由于 $H(P)$ 对于固定的真实分布是常数,最小化交叉熵等价于最小化 KL 散度。

连接到损失函数设计

这就是为什么交叉熵损失在分类任务中如此普遍:

  • 分类任务
    • 标签的真实分布 $P$ 是 one-hot 向量
    • 模型输出 $Q$ 是 softmax 概率
    • $H(P, Q)$ 的最小化等价于最大化正确类别的对数似然——这就是 MLE。
  • 语言模型:预测下一个 token 的交叉熵损失,本质上是在最小化模型分布与真实语言分布之间的 KL 散度。GPT 系列模型的训练目标就是最小化交叉熵。
  • VAE 的 ELBO:证据下界可以分解为重构损失(交叉熵)和正则化项(KL 散度):

$$\text{ELBO} = \mathbb{E}_{q(z|x)}[\log p(x|z)] - D_{KL}(q(z|x) | p(z))$$

  • 知识蒸馏(Knowledge Distillation):Hinton 等人 (2015) 提出用 KL 散度衡量学生模型和教师模型输出分布的差异,作为蒸馏损失。

直觉理解

KL 散度可以理解为"如果用 $Q$ 替代 $P$,平均会多付出多少信息"。

$Q$ 偏离 $P$ 时,对数比值会变大:

$$\log \frac{P(x)}{Q(x)}$$

这说明模型系统性低估了某些区域的概率。交叉熵则是"在真实标签下,模型输出的平均负对数似然",对小概率的惩罚更强,使得模型必须把正确类别的概率拉高。

AI 中的角色

  • 分类任务:标签的真实分布通常是 one-hot。最小化交叉熵 $H(P, Q)$ 等价于最大化正确类别的对数似然,是分类任务的标准损失。

  • 语言模型:GPT、BERT 等模型通过最小化下一个 token 的交叉熵来逼近真实语言分布(Brown et al., 2020)。

  • VAE:ELBO 的第二项是 KL 散度正则项:

    $$D_{KL}(q(z|x) \parallel p(z))$$

    它用于让近似后验靠近先验,保障生成分布的一致性。

  • 知识蒸馏:Hinton et al. (2015) 使用 KL 散度衡量学生模型与教师模型输出分布的差异,使学生学习到教师的”软标签”信息。

3.6 数理统计:从数据到推断

虽然概率论提供了理论框架,但数理统计关注的是如何从有限的、带噪声的数据中进行可靠的推断。统计学为 AI 提供了模型评估、假设检验和不确定性量化的工具。

统计推断的核心问题

数理统计解决三大核心问题:

  1. 参数估计(Parameter Estimation):从数据估计模型参数(点估计:MLE、MAP;区间估计:置信区间)
  2. 假设检验(Hypothesis Testing):判断数据是否支持某个假设(p值、显著性检验)
  3. 模型选择(Model Selection):在多个候选模型中选择最优模型(AIC、BIC、交叉验证)

充分统计量与 Fisher 信息

充分统计量(Sufficient Statistic):包含了数据中关于参数的所有信息的统计量。

  • 对于正态分布,样本均值与样本方差构成关于参数的充分统计量
  • Fisher-Neyman 分解定理给出了充分统计量的判定准则

Fisher 信息(Fisher Information):衡量数据对参数的”信息量”:

$$I(\theta) = \mathbb{E}\left[\left(\frac{\partial \log p(X|\theta)}{\partial \theta}\right)^2\right]$$

  • Fisher 信息越大,参数估计的方差越小(Cramér-Rao 下界)
  • 在深度学习中,Fisher 信息矩阵用于自然梯度优化

假设检验与 p 值

假设检验的基本框架:

  • 零假设 $H_0$:待检验的假设(如”两组均值相等”)
  • 备择假设 $H_1$:与零假设对立的假设
  • 检验统计量:从数据计算的量(如 t 统计量、卡方统计量)
  • p 值:在零假设为真的前提下,观察到当前数据或更极端数据的概率

在 AI 中的应用

  • A/B 测试:比较两个模型或策略的性能差异是否显著
  • 特征选择:通过假设检验判断特征是否与目标变量相关
  • 模型诊断:检验残差是否满足正态性、独立性等假设

一个统一小例子:A/B 测试如何串起估计、检验与区间

假设我们要比较两个推荐策略:

  • A 组:1000 次曝光里有 80 次点击,点击率 $\hat{p}_A = 0.08$
  • B 组:1000 次曝光里有 110 次点击,点击率 $\hat{p}_B = 0.11$

这时统计链条可以写得很清楚:

  1. 点估计:我们先估计增量效果为 $0.11 - 0.08 = 0.03$,也就是 B 组点击率高出 3 个百分点。
  2. 假设检验:设零假设为“两组真实点击率相等”,用双样本比例检验可得到 z 统计量约 2.29,对应双侧 p 值约 0.022。这说明如果两组真实无差异,观察到这样大的样本差距并不常见。
  3. 置信区间:该差值的 95% 置信区间约为 $[0.4%, 5.6%]$。相比只说“显著”或“不显著”,区间还能告诉我们效果可能有多大。

这个例子也正好说明概率论与统计学的分工:概率模型告诉我们点击可被看作 Bernoulli / 二项分布,统计推断则把有限样本转化为“差值估计 + 显著性判断 + 不确定性区间”。

直觉理解

如果说概率论更像是在描述“世界可能怎样生成数据”,那么数理统计做的事情就是反过来:只拿到一小段样本,判断背后的机制大概是什么、结论有多稳。A/B 测试之所以重要,不是因为它能给出一个神秘的 $p$ 值,而是因为它把“观察到的差异”拆解成三个层次:效果大小、是否足够异常、区间有多宽。

置信区间与不确定性量化

置信区间(Confidence Interval):参数的可能取值范围。

  • 95% 置信区间:如果重复采样,95% 的区间会包含真实参数
  • 与贝叶斯可信区间(Credible Interval)的区别:频率学派 vs 贝叶斯学派

在 AI 中的应用

  • 模型性能评估:报告准确率的置信区间,而不仅仅是点估计
  • 预测区间:不仅预测值,还给出预测的不确定性范围
  • 贝叶斯神经网络:通过后验分布提供参数的可信区间

模型选择准则

AIC(Akaike Information Criterion)

$$\text{AIC} = 2k - 2\ln(\hat{L})$$

其中 $k$ 是参数数量,$\hat{L}$ 是最大似然。AIC 平衡了模型拟合度与复杂度。

BIC(Bayesian Information Criterion)

$$\text{BIC} = k\ln(n) - 2\ln(\hat{L})$$

其中 $n$ 是样本数量。BIC 对模型复杂度的惩罚比 AIC 更强。

交叉验证(Cross-Validation)

  • k-fold 交叉验证:将数据分为 k 份,轮流用 k-1 份训练、1 份验证
  • 留一法(Leave-One-Out):k = n 的特殊情况
  • 在深度学习中,验证集损失是最常用的模型选择标准

AI 中的角色

  • 实验评估:A/B 测试、离线评测与线上回滚策略都依赖统计显著性与区间估计。
  • 模型比较:看似只差 0.2% 准确率的两个模型,是否真有稳定差异,需要统计检验而不是肉眼判断。
  • 不确定性汇报:高风险 AI 场景不能只报一个点预测,还要报方差、区间与校准误差。
  • 训练与验证分工:概率模型负责写出似然,统计学负责告诉我们如何评估这个似然学出来的模型是否可靠。

统计学与概率论的分工

  • 概率论:给定模型和参数,推导数据的分布(演绎推理)
  • 数理统计:给定数据,推断模型和参数(归纳推理)

在 AI 中,两者紧密结合:概率论提供建模语言,统计学提供推断工具。


4. 对 AI 的核心贡献

4.1 从概率论概念到 AI 应用的转化路径

概率论概念 转化路径 AI 应用 关键论文
贝叶斯定理 先验+似然→后验 贝叶斯神经网络、贝叶斯优化 Blundell et al. (2015) Weight Uncertainty in Neural Networks
最大似然估计 对数似然→损失函数 几乎所有监督学习模型的训练 Fisher (1922)
EM 算法 隐变量→迭代优化 GMM 聚类、HMM 语音识别、VAE Dempster et al. (1977)
马尔可夫链 状态转移→序列建模 语言模型、扩散模型、强化学习 Ho et al. (2020) DDPM
KL 散度 分布距离→损失函数 交叉熵损失、VAE 正则化、知识蒸馏 Hinton et al. (2015)
变分推断 优化代替采样 VAE、变分 RNN、摊销推断 Kingma & Welling (2014) Auto-Encoding Variational Bayes
概率图模型 图结构→结构化预测 CRF 序列标注、因果推断 Lafferty et al. (2001) CRF
高斯过程 非参数贝叶斯→函数分布 贝叶斯优化、不确定性估计 Rasmussen & Williams (2006)

4.2 概率论视角下的深度学习三大范式

判别模型(Discriminative Models):直接建模条件概率 $P(y \mid x)$

  • 逻辑回归、神经网络分类器都属于此类

  • 训练目标:最大化条件对数似然

    $$\sum_i \log P(y_i \mid x_i; \theta)$$

  • 优势:直接优化预测性能,不需要建模输入分布

生成模型(Generative Models):建模联合分布 $P(x, y)$ 或数据分布 $P(x)$

  • 朴素贝叶斯、GMM、VAE、GAN、扩散模型

  • 可以生成新样本、处理缺失数据、进行半监督学习

  • GPT 系列本质上是自回归生成模型:

    $$P(x) = \prod_t P(x_t \mid x_{<t})$$

能量模型(Energy-Based Models):通过能量函数定义未归一化的概率:

$$P(x) = \frac{\exp(-E(x))}{Z}$$

  • 玻尔兹曼机、受限玻尔兹曼机(RBM)
  • 对比学习(Contrastive Learning)可以解释为能量模型的训练
  • 配分函数 $Z$ 的计算是核心难题,连接到统计物理

4.3 不确定性量化:概率论给 AI 的独特礼物

现代 AI 系统面临的一个关键挑战是校准(Calibration)——模型说"我有 90% 的信心"时,是否真的有 90% 的概率是对的?

  • 认知不确定性(Epistemic Uncertainty):由于数据不足导致的不确定性,可以通过收集更多数据来减少。贝叶斯方法通过后验分布的宽度来量化。
  • 偶然不确定性(Aleatoric Uncertainty):数据本身的固有噪声,无法通过更多数据消除。可以通过异方差模型来建模。
  • 分布外检测(Out-of-Distribution Detection):当输入数据与训练分布差异很大时,模型应该表达高不确定性。这对自动驾驶、医疗 AI 等安全关键应用至关重要。

5. 前沿与开放问题

5.1 可扩展的贝叶斯深度学习

贝叶斯方法的理论优势(不确定性量化、自动正则化、模型选择)已被广泛认可,但计算成本仍是主要瓶颈。当前的研究方向:

  • 随机梯度 MCMC(SG-MCMC):将 MCMC 与小批量梯度下降结合,如 SGLD(Welling & Teh, 2011)、SGHMC(Chen et al., 2014)
  • 自然梯度变分推断:利用 Fisher 信息矩阵加速变分推断的收敛
  • 神经网络高斯过程(NNGP):无限宽神经网络等价于高斯过程(Neal, 1996),为理解深度学习提供了概率论视角

5.2 因果推断与 AI

Pearl 的因果层级揭示了当前 AI 的根本局限:

  • 第一层(关联):$P(y \mid x)$ — 当前深度学习擅长的层面
  • 第二层(干预):$P(y \mid \mathrm{do}(x))$ — 需要因果模型,不能仅从观测数据获得
  • 第三层(反事实):$P(y_x \mid x', y')$ — 需要完整的结构因果模型

从关联到因果的跨越,被认为是通向 AGI 的关键一步。Yoshua Bengio 等人提出的"系统 2 深度学习"强调了因果推断的重要性。

5.3 概率编程(Probabilistic Programming)

概率编程语言(如 Stan、Pyro、NumPyro)让研究者可以用编程的方式定义概率模型,自动进行推断。这降低了贝叶斯建模的门槛,使概率论的工具更加普及。

5.4 扩散模型的理论深化

扩散模型的成功(DALL-E、Stable Diffusion、Sora)引发了对其理论基础的深入研究:

  • 与随机微分方程(SDE)的连接(Song et al., 2021)
  • 与最优传输(Optimal Transport)的关系
  • 采样效率的理论分析

6. 推荐阅读与参考文献

教材

  • Jaynes, E. T. (2003). Probability Theory: The Logic of Science. Cambridge University Press. — 从逻辑学角度理解概率论,贝叶斯学派的经典之作
  • Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. — 机器学习中概率方法的标准教材,第 1-2 章是概率论基础的最佳入门
  • Murphy, K. P. (2012). Machine Learning: A Probabilistic Perspective. MIT Press. — 从概率论视角系统介绍机器学习
  • Koller, D. & Friedman, N. (2009). Probabilistic Graphical Models: Principles and Techniques. MIT Press. — 概率图模型的权威教材

关键论文

  • Bayes, T. (1763). An Essay towards solving a Problem in the Doctrine of Chances. Philosophical Transactions of the Royal Society.
  • Kolmogorov, A. N. (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung. Springer.
  • Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal.
  • Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society.
  • Pearl, J. (1988). Probabilistic Reasoning in Intelligent Systems. Morgan Kaufmann.
  • Neal, R. M. (1996). Bayesian Learning for Neural Networks. Springer.
  • Kingma, D. P. & Welling, M. (2014). Auto-Encoding Variational Bayes. ICLR.
  • Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. NeurIPS.

在线资源


7. 本篇在全书中的位置

本篇介绍了概率论与数理统计对 AI/AGI 发展的核心贡献:为机器学习提供了处理不确定性的数学语言,从参数估计到生成模型,从贝叶斯推断到变分推断

与相邻篇章的关系

  • 与[[04-information-theory|信息论]]共同构成信息处理的理论基础:熵、KL 散度等核心概念都建立在概率分布之上
  • 为[[03-calculus-and-optimization|微积分与优化理论]]提供应用场景:最大似然估计、变分推断都是优化问题
  • 与[[09-causal-inference|因果推断]]形成递进关系:概率论描述相关性,因果推断回答"为什么"
  • 为[[13-cybernetics|控制论]]提供不确定性处理工具:卡尔曼滤波、状态估计依赖概率方法
  • 与[[16-neuroscience|神经科学]]在贝叶斯脑假说上形成连接

贡献边界: 概率论主要解决了如何量化和推理不确定性,但在以下方面需要其他学科补充:(1)因果关系:概率论只能描述相关性,因果推断需要额外的结构假设;(2)计算效率:精确的贝叶斯推断在高维空间中往往不可行,需要优化理论和近似算法;(3)模型选择:概率论提供了模型比较的工具(如贝叶斯因子),但如何设计合适的先验和似然函数仍需要领域知识;(4)表示学习:概率论假设变量和分布已知,但如何从原始数据中学习有意义的表示需要深度学习的支持。因此,概率论为 AI 提供了核心的数学框架,但需要与其他学科结合才能构建完整的智能系统。


可视化演示:参见 code/visualizations/viz_bayesian_update.py — 贝叶斯后验更新的动态可视化