title

因果推断

aliases

Causal Inference

因果推断与结构因果模型（Causal Inference and Structural Causal Models）：从起源到 AI 的完整脉络

上帝视角：统计学习让 AI 从数据中发现稳定的相关模式，因果推断则继续追问：如果主动改变系统，会发生什么？哪些规律在分布迁移后仍然成立？一次结果究竟由什么机制产生？从潜在结果框架（potential outcomes）到结构因果模型（structural causal model, SCM），从随机实验到观察性识别、反事实推理与因果发现，因果推断为 AI 的决策、评估、鲁棒泛化与科学发现提供了“相关性之上”的推理语言。

1. 上帝视角：为什么 AI 需要因果推断

1.1 三层问题：关联、干预与反事实

因果推断区分三个层级的问题，每个层级对应 AI 的不同能力需求：

层级	核心问题	AI 中的典型任务
关联（Association）	观察到 $X$ 时，$Y$ 往往怎样？	预测模型、推荐排序、表征学习
干预（Intervention）	如果主动改变 $X$，$Y$ 会怎样？	策略优化、产品实验、资源配置
反事实（Counterfactual）	如果当时采取另一种动作，会发生什么？	归因、审计、离线评估、责任分析

大多数监督学习只可靠地回答第一层问题。但一旦 AI 要参与行动，就不能只问“什么经常同时出现”，还必须问“什么会真正导致变化”。

1.2 预测不等于决策：相关性的局限

一个推荐系统可以准确预测“喜欢 A 的用户往往也喜欢 B”，但这不等于“给他推荐 B 就会提高满意度”。前者是观察到的联合分布，后者涉及主动干预后的结果。

类似地，一个医疗预测模型可以判断“高风险患者更可能接受某种治疗”，但这不代表“给患者这个治疗一定更好”。如果训练数据里原本就存在选择偏差（selection bias），单纯依赖相关性会把历史决策中的偏差一起学进去。

1.3 与其他学科的关键连接点

连接学科	连接方式	AI 中的体现
概率论与数理统计	因果推断以概率为语言，但在概率之上增加结构与方向	条件概率 $P(Y\mid X)$ 与干预分布 $P(Y\mid do(X))$ 的区分
经济学、偏好与对齐	计量经济学推动了识别方法的发展	工具变量、双重差分、政策评估
逻辑学与形式推理	因果图提供可组合的形式表示	DAG、结构方程、可解释推理
控制论	控制本质上是对系统施加干预	强化学习、策略评估、闭环决策
哲学	因果是解释、责任与理解的重要基础	反事实解释、模型审计、科学发现

2. 历史脉络

2.1 哲学起点：因果究竟是什么

David Hume (1748) 在《人类理解研究》中指出，人们并不能直接观察到“必然联系”，只能观察到事件的连续出现。这种怀疑论提醒后世：因果不是简单的共现统计。
John Stuart Mill (1843) 在《逻辑体系》中提出求因五法（Mill’s methods），试图用系统比较的方法识别可能的因果关系。虽然这些方法仍然偏经验主义，但已经出现了“干预与比较”的思想雏形。

这一阶段的核心贡献，是把“因果”从日常直觉问题推进为一个可被明确讨论的方法论问题。

2.2 随机实验与统计传统

Ronald Fisher (1935) 在实验设计中系统强调随机化（randomization）的价值：若处理分配是随机的，处理组与对照组在期望上可比较。
Jerzy Neyman (1923, 1934) 发展了潜在结果框架的早期形式，把因果效应理解为“同一个个体在不同处理状态下结果的差异”。

这一传统经 Rubin (1974)、Imbens & Rubin (2015) 等人的系统化整理，奠定了现代实验科学中“随机对照试验（randomized controlled trial, RCT）”的核心方法地位；互联网产品中的 A/B 测试也可以视为这一实验设计传统在工程环境中的延伸。

2.3 计量经济学与观察性识别

随机实验并不总是可行，因此观察性数据中的因果识别逐渐成为核心问题。

Trygve Haavelmo (1944) 将概率论系统引入计量经济学，推动结构方程方法发展。
James Heckman (1970s-1990s) 系统研究选择偏差（selection bias）与样本选择模型。
Joshua Angrist & Guido Imbens (1990s) 推动工具变量（instrumental variables）和局部平均处理效应（local average treatment effect, LATE）的现代解释。
Donald Rubin (1974, 2005) 将潜在结果框架系统化，形成“Rubin causal model”。

这一阶段的核心转向是：即使没有随机实验，也可以借助识别假设和设计策略，对因果效应进行有限但严谨的推断。

2.4 结构因果模型的建立

Judea Pearl (1988, 2000, 2009) 将有向无环图（directed acyclic graph, DAG）、结构方程与 do-算子统一为结构因果模型框架。
Spirtes, Glymour & Scheines (1993, 2000) 推动因果发现（causal discovery）算法的发展，如 PC 算法。

Pearl 的贡献在于把“因果结构”“干预运算”“反事实推理”放在同一个形式系统里，使得许多原本分散的方法可以统一理解。

2.5 因果推断进入现代 AI

Pearl (2018) 明确提出“只有相关性不够，需要因果与反事实层级”这一主张，对 AI 社区产生持续影响。
Peters, Janzing & Schölkopf (2017) 将因果视角引入机器学习中的分布迁移、不变预测与因果发现。
Arjovsky et al. (2019) 的不变风险最小化（IRM）推动了因果与鲁棒泛化的结合。
Kusner et al. (2017) 提出反事实公平（counterfactual fairness），把公平性问题转化为因果问题。
离线强化学习、策略评估、科学机器学习、因果表征学习等方向，也都在持续吸收因果推断的方法。

3. 核心知识点详解

3.1 潜在结果框架（Potential Outcomes）

核心定义

对每个样本个体 $i$，设：

$Y_i(1)$：接受处理时的潜在结果
$Y_i(0)$：不接受处理时的潜在结果

个体层面的处理效应是：

$$ \tau_i = Y_i(1) - Y_i(0) $$

总体平均处理效应（average treatment effect, ATE）为：

$$ ATE = \mathbb{E}[Y(1) - Y(0)] $$

其中：$Y(1)$ 表示接受处理时的潜在结果，$Y(0)$ 表示未接受处理时的潜在结果，$\mathbb{E}[\cdot]$ 表示总体期望。

条件平均处理效应（conditional average treatment effect, CATE）为：

$$ CATE(x) = \mathbb{E}[Y(1) - Y(0) \mid X=x] $$

关键困难在于：对同一个个体，$Y(1)$ 和 $Y(0)$ 不可能同时被观察到。这就是因果推断最基本的“反事实缺失”问题。

直觉理解

潜在结果框架把因果问题理解为“两个平行世界之间的差异”。现实里你只能看到一个世界：治疗做了，或者没做；广告投了，或者没投；推荐给了，或者没给。另一个世界必须靠设计、假设或模型来推断。

在 AI 中的角色

增量建模（uplift modeling）：估计“给用户看某个推荐”相对于“不看”的真实增量效果。
离线策略评估：评估一个新策略如果上线，是否会比旧策略带来更高收益。
个体化决策：根据不同用户的 CATE 做个性化干预或资源分配。

3.2 结构因果模型与因果图（SCM and DAG）

核心定义

结构因果模型由变量、结构方程和噪声组成。一个简化的 SCM 可以写为：

$$ X := f_X(U_X), \quad Y := f_Y(X, U_Y) $$

其中 $U_X, U_Y$ 是外生变量（exogenous variables），$X, Y$ 是内生变量（endogenous variables）。

若用因果图表示：

节点表示变量
有向边表示直接因果影响
有向无环图（DAG）排除了反馈环

典型概念包括：

混杂变量（confounder）：同时影响处理和结果的变量
碰撞点（collider）：两个变量共同指向的变量
中介变量（mediator）：位于因果链中间的变量
后门路径（backdoor path）：从处理到结果的非因果路径

直觉理解

潜在结果框架强调“定义效应”，结构因果模型更强调“世界的生成机制长什么样”。它不是只问“差异是多少”，而是试图把变量之间的作用方向画出来，这样才能判断该控制谁、不该控制谁，以及哪些变量会引入偏差。

在 AI 中的角色

因果表征学习：寻找更加稳定、可迁移的生成因素。
模型解释：区分“真因”与“代理特征”。
多步决策系统：为智能体建立更接近环境机制的内部模型。

3.3 do-算子与干预推理（Interventional Reasoning）

核心定义

观察分布回答的是：

$$ P(Y \mid X=x) $$

干预分布回答的是：

$$ P(Y \mid do(X=x)) $$

其中 $do(X=x)$ 表示外部强制把 $X$ 设为 $x$，切断所有原本流入 $X$ 的因果边。若满足后门准则（backdoor criterion），则可用调整公式：

$$ P(Y \mid do(X=x)) = \sum_z P(Y \mid X=x, Z=z)P(Z=z) $$

这里 $Z$ 是一组足以阻断后门路径的调整变量。

直觉理解

条件概率像是在问：“我看到今天下雨时，地面为什么经常湿？”干预则是在问：“如果我现在打开喷头，地面会不会湿？”两者都涉及变量变化，但一个是观察到的共现，另一个是主动改变世界后的结果。

一个统一案例：优惠券到底有没有用

设 $X$ 表示“是否发放优惠券”，$Y$ 表示“是否下单”。那么三类常见问题分别是：

关联问题：$P(Y=1 \mid X=1)$，回答“拿到优惠券的用户有多常下单？”
干预问题：$P(Y=1 \mid do(X=1))$，回答“如果主动给用户发券，下单率会怎样变化？”
反事实问题：对某个最终没有下单的用户，如果当时给他发券，他是否会下单？

这三个问题看起来只差一点记号，但对应的是三种不同的科学问题：描述、决策和个体解释。

在 AI 中的角色

产品实验分析：区分“看到变化”与“造成变化”。
策略优化：估计某个行动的真实效果，而不是历史上与它共现的结果。
部署评估：分析模型上线、排序规则变化、预算调整等动作的真实后果。

3.4 因果识别策略（Identification Strategies）

先分清任务：实验、观察性评估与个体解释

读到识别方法时，最容易出现的问题不是“不认识方法名”，而是不知道该在什么场景下用哪类工具。一个最小导航可以这样记：

任务类型	典型问题	优先工具
随机实验	新排序上线是否提升转化？	A/B 测试、随机对照实验
观察性评估	无法随机分流时，某策略的真实效果是多少？	调整公式、工具变量、双重差分、断点回归、合成控制
个体解释	对这个具体用户/病例，如果换个动作会怎样？	反事实推理、结构因果模型

如果能做随机实验，通常先做实验；不能做实验时，才转向观察性识别；而当问题落到“这个具体个体本来会怎样”时，就要进入反事实层面。

随机实验与 A/B 测试

随机化可以在期望上消除混杂，因此成为最强的识别设计之一。现代互联网实验平台中的 A/B 测试，本质上就是 Fisher 传统在 AI 产品中的工程化延续。

工具变量（Instrumental Variables）

当处理变量与结果之间存在未观测混杂时，可以借助工具变量 $Z$：它影响处理 $X$，但只通过 $X$ 影响结果 $Y$。经典例子包括自然实验、资格门槛、外生政策变化等。

双重差分（Difference-in-Differences）

双重差分通过比较处理组与对照组在政策前后的变化差异，识别处理效应。关键假设是平行趋势（parallel trends）。

断点回归（Regression Discontinuity）

当处理由某个阈值规则决定时，可以比较阈值附近样本两侧的结果差异，识别局部因果效应。

合成控制（Synthetic Control）

当只有少量处理对象时，可构造一个由多个对照对象加权形成的“合成对照组”，用于评估政策或系统变化的影响。

在 AI 中的角色

广告与推荐评估：测量增量收益、点击提升和真实转化效果。
策略变更评估：分析新模型、新排序、新定价策略的上线后果。
离线决策学习：在缺乏随机实验时，尽量从日志数据中恢复可信的干预信息。

3.5 反事实推理（Counterfactual Reasoning）

核心定义

反事实问题关注：在已知事实结果的情况下，如果采取另一种行动会怎样。Pearl 常用三步法来刻画：

Abduction：根据观测结果更新对潜在噪声的信念
Action：施加新的干预
Prediction：在新世界中预测结果

反事实条件概率可写为：

$$ P(Y_{x'} = y \mid X=x, Y=y') $$

其中：$Y_{x'}$ 表示把处理变量设为 $x'$ 时的潜在结果，$X=x, Y=y'$ 表示现实世界中观察到的处理和结果。

它表示：已知现实中 $X=x, Y=y'$，如果把 $X$ 改成 $x'$，结果会不会变成 $y$？

直觉理解

反事实比普通干预更难，因为它不仅要问“如果改动作会怎样”，还要保留“这个具体个体在现实中已经表现出的特征”。也正因此，反事实是解释、责任、归因与审计中最自然的问题形式。

在 AI 中的角色

个体级解释：为什么这条贷款申请被拒？如果收入再高一点会怎样？
模型审计：判断某个敏感属性是否真正影响了结果。
离线评估：如果当时采取另一策略，收益是否更高？

3.6 因果发现（Causal Discovery）

核心定义

因果发现的目标是仅根据数据，推断可能的因果图结构。常见方法分为两类：

约束型方法（constraint-based）：如 PC、FCI，利用条件独立关系恢复图结构
得分型方法（score-based）：如 GES，为不同图结构打分并搜索最优图

在存在潜在混杂或隐藏变量时，问题会显著更难；如 Spirtes, Glymour & Scheines (2000) 与 Pearl (2009) 所强调的那样，此时通常只能恢复马尔可夫等价类（Markov equivalence class）而非唯一因果图。

直觉理解

因果发现像是在没有系统设计图的情况下，从运行日志和变量联动关系里反推“这个系统大概是怎么连起来的”。这件事非常诱人，但也非常脆弱：假设一变，结论就可能变化。

在 AI 中的角色

科学机器学习：从生物、材料、气候等数据中挖掘机制结构。
自动建模：为复杂系统构建更具解释力的图结构先验。
表示学习：寻找更接近生成机制的稳定因素。

4. 对 AI 的核心贡献

从现代 AI 的视角看，因果工具大致可以归入四类用途：提升预测鲁棒性、评估决策效果、做解释与审计、以及服务科学发现。下面几节分别对应这四个方向。

4.1 鲁棒泛化与分布外迁移

相关模式往往在环境变化时失效，而更接近因果机制的特征通常更稳定。因果视角推动了不变风险最小化（IRM）、因果表征学习和域泛化研究，试图让模型在分布外（out-of-distribution, OOD）环境中仍然保持有效。

4.2 推荐、广告与平台优化中的增量效应

互联网系统中最重要的问题往往不是“哪个用户更可能点击”，而是“这个动作能否带来新增点击或新增转化”。这正是因果效应估计问题。增量归因（incremental attribution）、uplift 建模和实验平台设计，都深受因果推断影响。

4.3 强化学习、离线决策与反事实评估

离线强化学习和策略评估经常面对与因果推断高度相似的问题：只能看到历史日志，无法直接观测新策略上线后的后果。因此，重要性加权、反事实评估、行为策略偏差修正等方法，与因果识别共享很多数学结构。

4.4 科学发现与机制建模

现代 AI 不再只做预测，还被用于药物发现、基因调控、气候建模和社会系统分析。在这些任务中，研究者真正关心的是机制与干预，而不是纯粹相关性。因果发现与结构建模为“AI 辅助科学发现”提供了语言框架。

4.5 可解释性、审计与安全

相关性解释常常会把表面代理特征误当成原因。因果解释和反事实解释则更贴近人类真正想问的问题：为什么会这样？如果改变某个因素会怎样？这对公平性审计、安全评估、责任归因和高风险系统治理都非常重要。

5. 前沿与开放问题

5.1 因果表示学习能否真正提升大模型鲁棒性

很多工作主张，只要学到“真正因果”的因素，模型就能更稳定地迁移。但在高维感知数据与大模型语境下，什么才算“因果表征”、如何验证其稳定性，仍然远未解决。

5.2 从观察数据到干预结论的假设边界

因果识别总是依赖假设：无隐藏混杂、平行趋势、工具变量外生性等。AI 工程里常见的问题是，方法被套用得过快，但识别条件没有被认真检查。如何把“识别假设”变成工程流程中的显式审查项，仍然是重要挑战。

5.3 因果推断与强化学习、世界模型的统一

控制、规划、离线强化学习、因果推断都在讨论“行动如何改变未来”。但目前这些领域的语言体系仍未完全统一。如何把因果图、结构模型与序列决策更自然地结合，是重要前沿。

5.4 因果公平性与高风险 AI 治理

公平性不能只看统计平衡，还要问敏感属性是否通过不合理路径影响了结果。反事实公平、路径特定效应（path-specific effects）等方法提供了更细的工具，但其实际落地仍面临法律、伦理和建模假设三重挑战。

6. 推荐阅读与参考文献

6.1 经典教材

Pearl, J. (2009). Causality: Models, Reasoning, and Inference. Cambridge University Press.
Imbens, G. W. & Rubin, D. B. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press.
Hernán, M. A. & Robins, J. M. (2020). Causal Inference: What If. Chapman & Hall/CRC.
Peters, J., Janzing, D. & Schölkopf, B. (2017). Elements of Causal Inference. MIT Press.

6.2 关键论文

Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5), 688–701.
Pearl, J. (1995). Causal diagrams for empirical research. Biometrika, 82(4), 669–688.
Angrist, J. D., Imbens, G. W. & Rubin, D. B. (1996). Identification of causal effects using instrumental variables. Journal of the American Statistical Association, 91(434), 444–455.
Kusner, M. J., Loftus, J., Russell, C. & Silva, R. (2017). Counterfactual fairness. Advances in Neural Information Processing Systems, 30.
Arjovsky, M., Bottou, L., Gulrajani, I. & Lopez-Paz, D. (2019). Invariant risk minimization. arXiv preprint arXiv:1907.02893.

6.3 AI 相关延伸阅读

Schölkopf, B. et al. (2021). Toward causal representation learning. Proceedings of the IEEE, 109(5), 612–634.
Bareinboim, E. & Pearl, J. (2016). Causal inference and the data-fusion problem. Proceedings of the National Academy of Sciences, 113(27), 7345–7352.
Bottou, L. et al. (2013). Counterfactual reasoning and learning systems. arXiv preprint arXiv:1302.4929.
Pearl, J. & Mackenzie, D. (2018). The Book of Why. Basic Books.
Hernán, M. A., Hsu, J. & Healy, B. (2019). A second chance to get causal inference right: A classification of data science tasks. CHANCE, 32(1), 42–49.

7. 本篇在全书中的位置

本篇介绍了因果推断对 AI/AGI 发展的核心贡献：从相关性推理跨越到因果推理，为 AI 系统提供了理解"为什么"和"如果...会怎样"的能力。

与相邻篇章的关系：

与[[01-probability-and-statistics|概率论与数理统计]]形成递进关系：概率论描述相关性 P(Y|X)，因果推断回答干预效果 P(Y|do(X))
与[[04-information-theory|信息论]]在因果发现上相关：条件独立性测试是因果结构学习的基础
与[[13-cybernetics|控制论]]在干预与反馈上形成连接：控制论处理如何干预，因果推断解释干预的效果
与[[21-operations-research|运筹学]]在决策优化上互补：因果推断提供反事实推理，运筹学提供优化方法
与[[23-economics|经济学]]共享方法论基础：工具变量、断点回归等方法源自计量经济学

贡献边界：因果推断主要解决了如何从数据中识别因果关系和估计干预效果，但在以下方面存在局限：（1）识别假设的验证：因果识别总是依赖不可检验的假设（如无隐藏混杂、工具变量外生性），这些假设在实践中难以完全保证；（2）高维复杂系统：当变量数量巨大、因果关系复杂时，因果图的构建和识别变得极其困难；（3）与深度学习的结合：如何在端到端学习中嵌入因果约束，如何从高维感知数据中学习因果表示，仍是开放问题；（4）计算复杂性：许多因果推断算法（如因果发现、反事实推理）的计算复杂度很高。因此，因果推断为 AI 提供了从相关到因果的关键跨越，但需要与概率论、优化理论、深度学习等学科结合才能在实际系统中发挥作用。

FilesExpand file tree

09-causal-inference.md

Latest commit

History

09-causal-inference.md

File metadata and controls

因果推断与结构因果模型（Causal Inference and Structural Causal Models）：从起源到 AI 的完整脉络

相关主题

1. 上帝视角：为什么 AI 需要因果推断

1.1 三层问题：关联、干预与反事实

1.2 预测不等于决策：相关性的局限

1.3 与其他学科的关键连接点

2. 历史脉络

2.1 哲学起点：因果究竟是什么

2.2 随机实验与统计传统

2.3 计量经济学与观察性识别

2.4 结构因果模型的建立

2.5 因果推断进入现代 AI

3. 核心知识点详解

3.1 潜在结果框架（Potential Outcomes）

核心定义

直觉理解

在 AI 中的角色

3.2 结构因果模型与因果图（SCM and DAG）

核心定义

直觉理解

在 AI 中的角色

3.3 do-算子与干预推理（Interventional Reasoning）

核心定义

直觉理解

一个统一案例：优惠券到底有没有用

在 AI 中的角色

3.4 因果识别策略（Identification Strategies）

先分清任务：实验、观察性评估与个体解释

随机实验与 A/B 测试

工具变量（Instrumental Variables）

双重差分（Difference-in-Differences）

断点回归（Regression Discontinuity）

合成控制（Synthetic Control）

在 AI 中的角色

3.5 反事实推理（Counterfactual Reasoning）

核心定义

直觉理解

在 AI 中的角色

3.6 因果发现（Causal Discovery）

核心定义

直觉理解

在 AI 中的角色

4. 对 AI 的核心贡献

4.1 鲁棒泛化与分布外迁移

4.2 推荐、广告与平台优化中的增量效应

4.3 强化学习、离线决策与反事实评估

4.4 科学发现与机制建模

4.5 可解释性、审计与安全

5. 前沿与开放问题

5.1 因果表示学习能否真正提升大模型鲁棒性

5.2 从观察数据到干预结论的假设边界

5.3 因果推断与强化学习、世界模型的统一

5.4 因果公平性与高风险 AI 治理

6. 推荐阅读与参考文献

6.1 经典教材

6.2 关键论文

6.3 AI 相关延伸阅读

7. 本篇在全书中的位置