Skip to content

Latest commit

 

History

History
408 lines (254 loc) · 22.4 KB

File metadata and controls

408 lines (254 loc) · 22.4 KB
title 因果推断
aliases
Causal Inference
category
数学与形式基础
tags
ai-foundations
causality
inference
type topic
status stable
importance core
version v2.0
date 2026-04-08

因果推断与结构因果模型(Causal Inference and Structural Causal Models):从起源到 AI 的完整脉络

上帝视角:统计学习让 AI 从数据中发现稳定的相关模式,因果推断则继续追问:如果主动改变系统,会发生什么?哪些规律在分布迁移后仍然成立?一次结果究竟由什么机制产生?从潜在结果框架(potential outcomes)到结构因果模型(structural causal model, SCM),从随机实验到观察性识别、反事实推理与因果发现,因果推断为 AI 的决策、评估、鲁棒泛化与科学发现提供了“相关性之上”的推理语言。


相关主题

  • [[01-probability-and-statistics|概率论与数理统计]]:因果推断建立在统计关联之上,但目标超越单纯相关分析
  • [[08-logic|逻辑学与形式推理]]:反事实推理、因果图解释与结构化表示需要逻辑框架支撑
  • [[13-cybernetics|控制论]]:干预、反馈与策略调整本质上都涉及"行动如何改变系统"
  • [[18-psychology|心理学]]:人类如何理解原因、归因与行为后果,是因果认知的重要来源
  • [[25-philosophy|哲学]]:因果性、解释与科学理解本身就是哲学中的经典问题

1. 上帝视角:为什么 AI 需要因果推断

1.1 三层问题:关联、干预与反事实

因果推断区分三个层级的问题,每个层级对应 AI 的不同能力需求:

层级 核心问题 AI 中的典型任务
关联(Association) 观察到 $X$ 时,$Y$ 往往怎样? 预测模型、推荐排序、表征学习
干预(Intervention) 如果主动改变 $X$,$Y$ 会怎样? 策略优化、产品实验、资源配置
反事实(Counterfactual) 如果当时采取另一种动作,会发生什么? 归因、审计、离线评估、责任分析

大多数监督学习只可靠地回答第一层问题。但一旦 AI 要参与行动,就不能只问“什么经常同时出现”,还必须问“什么会真正导致变化”。

1.2 预测不等于决策:相关性的局限

一个推荐系统可以准确预测“喜欢 A 的用户往往也喜欢 B”,但这不等于“给他推荐 B 就会提高满意度”。前者是观察到的联合分布,后者涉及主动干预后的结果。

类似地,一个医疗预测模型可以判断“高风险患者更可能接受某种治疗”,但这不代表“给患者这个治疗一定更好”。如果训练数据里原本就存在选择偏差(selection bias),单纯依赖相关性会把历史决策中的偏差一起学进去。

1.3 与其他学科的关键连接点

连接学科 连接方式 AI 中的体现
概率论与数理统计 因果推断以概率为语言,但在概率之上增加结构与方向 条件概率 $P(Y\mid X)$ 与干预分布 $P(Y\mid do(X))$ 的区分
经济学、偏好与对齐 计量经济学推动了识别方法的发展 工具变量、双重差分、政策评估
逻辑学与形式推理 因果图提供可组合的形式表示 DAG、结构方程、可解释推理
控制论 控制本质上是对系统施加干预 强化学习、策略评估、闭环决策
哲学 因果是解释、责任与理解的重要基础 反事实解释、模型审计、科学发现

2. 历史脉络

2.1 哲学起点:因果究竟是什么

  • David Hume (1748) 在《人类理解研究》中指出,人们并不能直接观察到“必然联系”,只能观察到事件的连续出现。这种怀疑论提醒后世:因果不是简单的共现统计。
  • John Stuart Mill (1843) 在《逻辑体系》中提出求因五法(Mill’s methods),试图用系统比较的方法识别可能的因果关系。虽然这些方法仍然偏经验主义,但已经出现了“干预与比较”的思想雏形。

这一阶段的核心贡献,是把“因果”从日常直觉问题推进为一个可被明确讨论的方法论问题。

2.2 随机实验与统计传统

  • Ronald Fisher (1935) 在实验设计中系统强调随机化(randomization)的价值:若处理分配是随机的,处理组与对照组在期望上可比较。
  • Jerzy Neyman (1923, 1934) 发展了潜在结果框架的早期形式,把因果效应理解为“同一个个体在不同处理状态下结果的差异”。

这一传统经 Rubin (1974)、Imbens & Rubin (2015) 等人的系统化整理,奠定了现代实验科学中“随机对照试验(randomized controlled trial, RCT)”的核心方法地位;互联网产品中的 A/B 测试也可以视为这一实验设计传统在工程环境中的延伸。

2.3 计量经济学与观察性识别

随机实验并不总是可行,因此观察性数据中的因果识别逐渐成为核心问题。

  • Trygve Haavelmo (1944) 将概率论系统引入计量经济学,推动结构方程方法发展。
  • James Heckman (1970s-1990s) 系统研究选择偏差(selection bias)与样本选择模型。
  • Joshua Angrist & Guido Imbens (1990s) 推动工具变量(instrumental variables)和局部平均处理效应(local average treatment effect, LATE)的现代解释。
  • Donald Rubin (1974, 2005) 将潜在结果框架系统化,形成“Rubin causal model”。

这一阶段的核心转向是:即使没有随机实验,也可以借助识别假设和设计策略,对因果效应进行有限但严谨的推断。

2.4 结构因果模型的建立

  • Judea Pearl (1988, 2000, 2009) 将有向无环图(directed acyclic graph, DAG)、结构方程与 do-算子统一为结构因果模型框架。
  • Spirtes, Glymour & Scheines (1993, 2000) 推动因果发现(causal discovery)算法的发展,如 PC 算法。

Pearl 的贡献在于把“因果结构”“干预运算”“反事实推理”放在同一个形式系统里,使得许多原本分散的方法可以统一理解。

2.5 因果推断进入现代 AI

  • Pearl (2018) 明确提出“只有相关性不够,需要因果与反事实层级”这一主张,对 AI 社区产生持续影响。
  • Peters, Janzing & Schölkopf (2017) 将因果视角引入机器学习中的分布迁移、不变预测与因果发现。
  • Arjovsky et al. (2019) 的不变风险最小化(IRM)推动了因果与鲁棒泛化的结合。
  • Kusner et al. (2017) 提出反事实公平(counterfactual fairness),把公平性问题转化为因果问题。
  • 离线强化学习、策略评估、科学机器学习、因果表征学习等方向,也都在持续吸收因果推断的方法。

3. 核心知识点详解

3.1 潜在结果框架(Potential Outcomes)

核心定义

对每个样本个体 $i$,设:

  • $Y_i(1)$:接受处理时的潜在结果
  • $Y_i(0)$:不接受处理时的潜在结果

个体层面的处理效应是:

$$ \tau_i = Y_i(1) - Y_i(0) $$

总体平均处理效应(average treatment effect, ATE)为:

$$ ATE = \mathbb{E}[Y(1) - Y(0)] $$

其中:$Y(1)$ 表示接受处理时的潜在结果,$Y(0)$ 表示未接受处理时的潜在结果,$\mathbb{E}[\cdot]$ 表示总体期望。

条件平均处理效应(conditional average treatment effect, CATE)为:

$$ CATE(x) = \mathbb{E}[Y(1) - Y(0) \mid X=x] $$

关键困难在于:对同一个个体,$Y(1)$ 和 $Y(0)$ 不可能同时被观察到。这就是因果推断最基本的“反事实缺失”问题。

直觉理解

潜在结果框架把因果问题理解为“两个平行世界之间的差异”。现实里你只能看到一个世界:治疗做了,或者没做;广告投了,或者没投;推荐给了,或者没给。另一个世界必须靠设计、假设或模型来推断。

在 AI 中的角色

  • 增量建模(uplift modeling):估计“给用户看某个推荐”相对于“不看”的真实增量效果。
  • 离线策略评估:评估一个新策略如果上线,是否会比旧策略带来更高收益。
  • 个体化决策:根据不同用户的 CATE 做个性化干预或资源分配。

3.2 结构因果模型与因果图(SCM and DAG)

核心定义

结构因果模型由变量、结构方程和噪声组成。一个简化的 SCM 可以写为:

$$ X := f_X(U_X), \quad Y := f_Y(X, U_Y) $$

其中 $U_X, U_Y$ 是外生变量(exogenous variables),$X, Y$ 是内生变量(endogenous variables)。

若用因果图表示:

  • 节点表示变量
  • 有向边表示直接因果影响
  • 有向无环图(DAG)排除了反馈环

典型概念包括:

  • 混杂变量(confounder):同时影响处理和结果的变量
  • 碰撞点(collider):两个变量共同指向的变量
  • 中介变量(mediator):位于因果链中间的变量
  • 后门路径(backdoor path):从处理到结果的非因果路径

直觉理解

潜在结果框架强调“定义效应”,结构因果模型更强调“世界的生成机制长什么样”。它不是只问“差异是多少”,而是试图把变量之间的作用方向画出来,这样才能判断该控制谁、不该控制谁,以及哪些变量会引入偏差。

在 AI 中的角色

  • 因果表征学习:寻找更加稳定、可迁移的生成因素。
  • 模型解释:区分“真因”与“代理特征”。
  • 多步决策系统:为智能体建立更接近环境机制的内部模型。

3.3 do-算子与干预推理(Interventional Reasoning)

核心定义

观察分布回答的是:

$$ P(Y \mid X=x) $$

干预分布回答的是:

$$ P(Y \mid do(X=x)) $$

其中 $do(X=x)$ 表示外部强制把 $X$ 设为 $x$,切断所有原本流入 $X$ 的因果边。若满足后门准则(backdoor criterion),则可用调整公式:

$$ P(Y \mid do(X=x)) = \sum_z P(Y \mid X=x, Z=z)P(Z=z) $$

这里 $Z$ 是一组足以阻断后门路径的调整变量。

直觉理解

条件概率像是在问:“我看到今天下雨时,地面为什么经常湿?”干预则是在问:“如果我现在打开喷头,地面会不会湿?”两者都涉及变量变化,但一个是观察到的共现,另一个是主动改变世界后的结果。

一个统一案例:优惠券到底有没有用

$X$ 表示“是否发放优惠券”,$Y$ 表示“是否下单”。那么三类常见问题分别是:

  • 关联问题:$P(Y=1 \mid X=1)$,回答“拿到优惠券的用户有多常下单?”
  • 干预问题:$P(Y=1 \mid do(X=1))$,回答“如果主动给用户发券,下单率会怎样变化?”
  • 反事实问题:对某个最终没有下单的用户,如果当时给他发券,他是否会下单?

这三个问题看起来只差一点记号,但对应的是三种不同的科学问题:描述、决策和个体解释。

在 AI 中的角色

  • 产品实验分析:区分“看到变化”与“造成变化”。
  • 策略优化:估计某个行动的真实效果,而不是历史上与它共现的结果。
  • 部署评估:分析模型上线、排序规则变化、预算调整等动作的真实后果。

3.4 因果识别策略(Identification Strategies)

先分清任务:实验、观察性评估与个体解释

读到识别方法时,最容易出现的问题不是“不认识方法名”,而是不知道该在什么场景下用哪类工具。一个最小导航可以这样记:

任务类型 典型问题 优先工具
随机实验 新排序上线是否提升转化? A/B 测试、随机对照实验
观察性评估 无法随机分流时,某策略的真实效果是多少? 调整公式、工具变量、双重差分、断点回归、合成控制
个体解释 对这个具体用户/病例,如果换个动作会怎样? 反事实推理、结构因果模型

如果能做随机实验,通常先做实验;不能做实验时,才转向观察性识别;而当问题落到“这个具体个体本来会怎样”时,就要进入反事实层面。

随机实验与 A/B 测试

随机化可以在期望上消除混杂,因此成为最强的识别设计之一。现代互联网实验平台中的 A/B 测试,本质上就是 Fisher 传统在 AI 产品中的工程化延续。

工具变量(Instrumental Variables)

当处理变量与结果之间存在未观测混杂时,可以借助工具变量 $Z$:它影响处理 $X$,但只通过 $X$ 影响结果 $Y$。经典例子包括自然实验、资格门槛、外生政策变化等。

双重差分(Difference-in-Differences)

双重差分通过比较处理组与对照组在政策前后的变化差异,识别处理效应。关键假设是平行趋势(parallel trends)。

断点回归(Regression Discontinuity)

当处理由某个阈值规则决定时,可以比较阈值附近样本两侧的结果差异,识别局部因果效应。

合成控制(Synthetic Control)

当只有少量处理对象时,可构造一个由多个对照对象加权形成的“合成对照组”,用于评估政策或系统变化的影响。

在 AI 中的角色

  • 广告与推荐评估:测量增量收益、点击提升和真实转化效果。
  • 策略变更评估:分析新模型、新排序、新定价策略的上线后果。
  • 离线决策学习:在缺乏随机实验时,尽量从日志数据中恢复可信的干预信息。

3.5 反事实推理(Counterfactual Reasoning)

核心定义

反事实问题关注:在已知事实结果的情况下,如果采取另一种行动会怎样。Pearl 常用三步法来刻画:

  1. Abduction:根据观测结果更新对潜在噪声的信念
  2. Action:施加新的干预
  3. Prediction:在新世界中预测结果

反事实条件概率可写为:

$$ P(Y_{x'} = y \mid X=x, Y=y') $$

其中:$Y_{x'}$ 表示把处理变量设为 $x'$ 时的潜在结果,$X=x, Y=y'$ 表示现实世界中观察到的处理和结果。

它表示:已知现实中 $X=x, Y=y'$,如果把 $X$ 改成 $x'$,结果会不会变成 $y$

直觉理解

反事实比普通干预更难,因为它不仅要问“如果改动作会怎样”,还要保留“这个具体个体在现实中已经表现出的特征”。也正因此,反事实是解释、责任、归因与审计中最自然的问题形式。

在 AI 中的角色

  • 个体级解释:为什么这条贷款申请被拒?如果收入再高一点会怎样?
  • 模型审计:判断某个敏感属性是否真正影响了结果。
  • 离线评估:如果当时采取另一策略,收益是否更高?

3.6 因果发现(Causal Discovery)

核心定义

因果发现的目标是仅根据数据,推断可能的因果图结构。常见方法分为两类:

  • 约束型方法(constraint-based):如 PC、FCI,利用条件独立关系恢复图结构
  • 得分型方法(score-based):如 GES,为不同图结构打分并搜索最优图

在存在潜在混杂或隐藏变量时,问题会显著更难;如 Spirtes, Glymour & Scheines (2000) 与 Pearl (2009) 所强调的那样,此时通常只能恢复马尔可夫等价类(Markov equivalence class)而非唯一因果图。

直觉理解

因果发现像是在没有系统设计图的情况下,从运行日志和变量联动关系里反推“这个系统大概是怎么连起来的”。这件事非常诱人,但也非常脆弱:假设一变,结论就可能变化。

在 AI 中的角色

  • 科学机器学习:从生物、材料、气候等数据中挖掘机制结构。
  • 自动建模:为复杂系统构建更具解释力的图结构先验。
  • 表示学习:寻找更接近生成机制的稳定因素。

4. 对 AI 的核心贡献

从现代 AI 的视角看,因果工具大致可以归入四类用途:提升预测鲁棒性、评估决策效果、做解释与审计、以及服务科学发现。下面几节分别对应这四个方向。

4.1 鲁棒泛化与分布外迁移

相关模式往往在环境变化时失效,而更接近因果机制的特征通常更稳定。因果视角推动了不变风险最小化(IRM)、因果表征学习和域泛化研究,试图让模型在分布外(out-of-distribution, OOD)环境中仍然保持有效。

4.2 推荐、广告与平台优化中的增量效应

互联网系统中最重要的问题往往不是“哪个用户更可能点击”,而是“这个动作能否带来新增点击或新增转化”。这正是因果效应估计问题。增量归因(incremental attribution)、uplift 建模和实验平台设计,都深受因果推断影响。

4.3 强化学习、离线决策与反事实评估

离线强化学习和策略评估经常面对与因果推断高度相似的问题:只能看到历史日志,无法直接观测新策略上线后的后果。因此,重要性加权、反事实评估、行为策略偏差修正等方法,与因果识别共享很多数学结构。

4.4 科学发现与机制建模

现代 AI 不再只做预测,还被用于药物发现、基因调控、气候建模和社会系统分析。在这些任务中,研究者真正关心的是机制与干预,而不是纯粹相关性。因果发现与结构建模为“AI 辅助科学发现”提供了语言框架。

4.5 可解释性、审计与安全

相关性解释常常会把表面代理特征误当成原因。因果解释和反事实解释则更贴近人类真正想问的问题:为什么会这样?如果改变某个因素会怎样?这对公平性审计、安全评估、责任归因和高风险系统治理都非常重要。


5. 前沿与开放问题

5.1 因果表示学习能否真正提升大模型鲁棒性

很多工作主张,只要学到“真正因果”的因素,模型就能更稳定地迁移。但在高维感知数据与大模型语境下,什么才算“因果表征”、如何验证其稳定性,仍然远未解决。

5.2 从观察数据到干预结论的假设边界

因果识别总是依赖假设:无隐藏混杂、平行趋势、工具变量外生性等。AI 工程里常见的问题是,方法被套用得过快,但识别条件没有被认真检查。如何把“识别假设”变成工程流程中的显式审查项,仍然是重要挑战。

5.3 因果推断与强化学习、世界模型的统一

控制、规划、离线强化学习、因果推断都在讨论“行动如何改变未来”。但目前这些领域的语言体系仍未完全统一。如何把因果图、结构模型与序列决策更自然地结合,是重要前沿。

5.4 因果公平性与高风险 AI 治理

公平性不能只看统计平衡,还要问敏感属性是否通过不合理路径影响了结果。反事实公平、路径特定效应(path-specific effects)等方法提供了更细的工具,但其实际落地仍面临法律、伦理和建模假设三重挑战。


6. 推荐阅读与参考文献

6.1 经典教材

  • Pearl, J. (2009). Causality: Models, Reasoning, and Inference. Cambridge University Press.
  • Imbens, G. W. & Rubin, D. B. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press.
  • Hernán, M. A. & Robins, J. M. (2020). Causal Inference: What If. Chapman & Hall/CRC.
  • Peters, J., Janzing, D. & Schölkopf, B. (2017). Elements of Causal Inference. MIT Press.

6.2 关键论文

  • Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5), 688–701.
  • Pearl, J. (1995). Causal diagrams for empirical research. Biometrika, 82(4), 669–688.
  • Angrist, J. D., Imbens, G. W. & Rubin, D. B. (1996). Identification of causal effects using instrumental variables. Journal of the American Statistical Association, 91(434), 444–455.
  • Kusner, M. J., Loftus, J., Russell, C. & Silva, R. (2017). Counterfactual fairness. Advances in Neural Information Processing Systems, 30.
  • Arjovsky, M., Bottou, L., Gulrajani, I. & Lopez-Paz, D. (2019). Invariant risk minimization. arXiv preprint arXiv:1907.02893.

6.3 AI 相关延伸阅读

  • Schölkopf, B. et al. (2021). Toward causal representation learning. Proceedings of the IEEE, 109(5), 612–634.
  • Bareinboim, E. & Pearl, J. (2016). Causal inference and the data-fusion problem. Proceedings of the National Academy of Sciences, 113(27), 7345–7352.
  • Bottou, L. et al. (2013). Counterfactual reasoning and learning systems. arXiv preprint arXiv:1302.4929.
  • Pearl, J. & Mackenzie, D. (2018). The Book of Why. Basic Books.
  • Hernán, M. A., Hsu, J. & Healy, B. (2019). A second chance to get causal inference right: A classification of data science tasks. CHANCE, 32(1), 42–49.

7. 本篇在全书中的位置

本篇介绍了因果推断对 AI/AGI 发展的核心贡献:从相关性推理跨越到因果推理,为 AI 系统提供了理解"为什么"和"如果...会怎样"的能力

与相邻篇章的关系

  • 与[[01-probability-and-statistics|概率论与数理统计]]形成递进关系:概率论描述相关性 P(Y|X),因果推断回答干预效果 P(Y|do(X))
  • 与[[04-information-theory|信息论]]在因果发现上相关:条件独立性测试是因果结构学习的基础
  • 与[[13-cybernetics|控制论]]在干预与反馈上形成连接:控制论处理如何干预,因果推断解释干预的效果
  • 与[[21-operations-research|运筹学]]在决策优化上互补:因果推断提供反事实推理,运筹学提供优化方法
  • 与[[23-economics|经济学]]共享方法论基础:工具变量、断点回归等方法源自计量经济学

贡献边界: 因果推断主要解决了如何从数据中识别因果关系和估计干预效果,但在以下方面存在局限:(1)识别假设的验证:因果识别总是依赖不可检验的假设(如无隐藏混杂、工具变量外生性),这些假设在实践中难以完全保证;(2)高维复杂系统:当变量数量巨大、因果关系复杂时,因果图的构建和识别变得极其困难;(3)与深度学习的结合:如何在端到端学习中嵌入因果约束,如何从高维感知数据中学习因果表示,仍是开放问题;(4)计算复杂性:许多因果推断算法(如因果发现、反事实推理)的计算复杂度很高。因此,因果推断为 AI 提供了从相关到因果的关键跨越,但需要与概率论、优化理论、深度学习等学科结合才能在实际系统中发挥作用。