Skip to content

Latest commit

 

History

History
489 lines (316 loc) · 24.1 KB

File metadata and controls

489 lines (316 loc) · 24.1 KB

从基础学科到通用人工智能:25 学科全景综述

版本:v2.1
日期:2026-04-08

摘要:本文按 25 个基础学科重新组织人工智能的发展脉络,解释为什么现代 AI 不是单一技术路线的自然结果,而是数学、工程、认知、生物、社会科学、物理学与哲学长期汇流的产物。本文不替代专题文档,而是在全景层回答三个问题:这些学科分别解决什么问题,它们如何在历史上汇聚成现代 AI,以及它们为何在大模型与智能体时代重新变得重要。

本文是中文文档主线中的全景综述正文。专题导航请见 文档导航专题索引知识地图


目录

  1. 上帝视角
  2. 历史脉络
  3. 核心知识点
  4. 数学与形式基础
  5. 计算与系统工程
  6. 认知、生物与语言
  7. 决策、交互与社会机制
  8. 物理与哲学基础
  9. 对 AI 的核心贡献
  10. 汇聚:从三次浪潮到大模型时代
  11. 前沿与开放问题
  12. 推荐阅读与参考文献

1. 上帝视角

人工智能经常被归类为计算机科学的一个分支,但这种说法只对实现层成立,对知识来源并不成立。现代 AI 的核心方法几乎都带着明显的跨学科血统:

  • 反向传播继承自微积分与优化;
  • 神经网络的结构灵感来自神经科学;
  • 强化学习的数学骨架来自概率论、运筹学与控制论;
  • 大语言模型既依赖统计学习,也依赖语言学、认知科学与大规模系统工程;
  • 对齐、激励、多智能体与治理问题又把经济学、博弈论、哲学和复杂性科学重新拉回中心。

因此,更准确的说法是:AI 是一门汇聚型学科。

本文按 25 学科结构展开。它的目标不是代替各专题页,而是给出一张全景地图,让读者理解:

  • 哪些基础学科构成了 AI 的底层语言;
  • 哪些学科负责把理论变成工程系统;
  • 哪些学科持续提供关于自然智能、社会交互与智能边界的参照系。

2. 历史脉络

全文按“五组二十五学科”展开:

分组 学科编号 核心问题
数学与形式基础 01-09 AI 用什么数学语言表示世界、优化参数、表达结构与推理机制
计算与系统工程 10-15 这些理论怎样被算出来、控出来、扩展成真实系统
认知、生物与语言 16-20 自然智能如何形成,以及它给 AI 提供了哪些启发与约束
决策、交互与社会机制 21-23 多主体如何决策、互动、分配资源并形成激励结构
物理与哲学基础 24-25 学习系统的能量、复杂性与认识边界如何被理解

如果把这条汇流线再压成几个年份锚点,可以看到更清楚的历史骨架:17 世纪的 Pascal 与 Fermat 奠定概率问题;19 世纪的 Boole、Riemann、Weierstrass 把逻辑、几何与逼近论推向现代形式;20 世纪中叶的 Turing(1936)、von Neumann(1945)、Shannon(1948)与 Wiener(1948)定义了可计算性、存储程序、信息与反馈;1986 年反向传播带来连接主义复兴;2012 年 AlexNet、2017 年 Transformer、2022 年 ChatGPT 则把这些长期积累推入大模型时代。

这五组并不是静态分类,而是一条历史汇流线。AI 的每一次大跃迁,几乎都伴随着这五组中的多个方向同时成熟。


3. 核心知识点

把 25 学科压缩成一张可操作的地图,可以抓住五个判断:

  • 数学与形式基础决定了 AI 如何表示、推断、优化与刻画结构;
  • 计算与系统工程决定了这些理论能否在真实机器上稳定、大规模地跑起来;
  • 认知、生物与语言提供了自然智能的参照系,也持续塑造“什么算智能能力”的问题设定;
  • 决策、交互与社会机制决定了当系统进入多主体、平台化与激励约束场景后如何运作;
  • 物理与哲学基础则分别从统计系统与认识边界两个方向,解释 AI 为什么会呈现出今天的宏观行为与争议。

因此,这 25 学科不是简单堆砌,而是一组从表示到系统、从个体到社会、从实现到边界的闭环。


4. 数学与形式基础

这一组回答的是:AI 的底层形式语言来自哪里?如果没有这一层,模型只能是经验性的技巧集合,而不能成为可分析、可迁移、可扩展的知识体系。

4.1 概率论与数理统计

从 Pascal 与 Fermat 的赌注问题,到 Bayes、Laplace、Kolmogorov 与 Fisher,概率论和统计学逐步把“不确定性”变成可计算对象。它对 AI 的贡献主要体现在:

  • 建立贝叶斯推断、统计学习和不确定性建模框架;
  • 让分类、估计、采样和泛化可以被严格讨论;
  • 为强化学习中的随机过程、因果推断中的数据生成机制提供语言。

现代机器学习在很大程度上就是“从数据中学习概率分布”的工程化过程。

4.2 线性代数

从 Cayley、Grassmann 到现代数值线性代数,线性代数为 AI 提供了最直接的计算语言。向量、矩阵、特征值、SVD 与张量几乎出现在所有现代模型中。

它的重要性不止于“神经网络要做矩阵乘法”,还在于:

  • 表示学习本质上是在高维向量空间中组织语义;
  • 注意力、嵌入、低秩近似和谱方法都依赖线性结构;
  • GPU 与 AI 加速器的很多设计,本质上也是围绕线性代数操作重构。

4.3 微积分与优化理论

Newton、Leibniz 建立微积分,Euler、Lagrange、Cauchy 与 20 世纪的优化理论则把“变化”和“极值”变成现代计算方法。AI 的训练过程本质上是一个可微优化问题:

  • 反向传播是链式法则在计算图上的系统应用;
  • SGD、Momentum、Adam 等优化器都属于优化理论的工程变体;
  • 变分推断、策略梯度、神经 ODE 也都直接依赖这一传统。

如果说线性代数是模型的静态骨架,那么微积分与优化理论就是训练它们的动力系统。

4.4 信息论

Shannon 在 1948 年定义熵以后,“信息”第一次获得了严格数学形态。信息论对 AI 的影响非常深:

  • 交叉熵和 KL 散度成为最常见的训练目标;
  • 互信息进入表示学习、对比学习和特征选择;
  • 信息瓶颈试图解释深度网络为什么会形成有用表示。

信息论还提醒我们:学习从来不只是拟合,而是压缩、保留和传递有用信息。

4.5 逼近论

从 Weierstrass 逼近定理到泛函分析与 RKHS,逼近论为神经网络的表达能力提供了理论底座。万能逼近定理解释了为什么神经网络有能力表达复杂函数,但更重要的是:

  • 它把“网络能不能表达”与“网络能不能训练好”分离开来;
  • 它帮助研究深度、宽度与函数复杂度之间的关系;
  • 它让核方法、无限宽网络和函数空间分析进入同一条理论线索。

4.6 图论

图论之所以在这张 25 学科地图中单列,是因为它解决的问题与连续几何不同。Euler 对柯尼斯堡七桥问题的抽象,把“关系结构”变成了数学对象。今天它直接进入 AI 中心:

  • 知识图谱、推荐系统、社交网络、分子结构都天然是图;
  • 最短路、匹配、流等算法支撑结构化搜索与调度;
  • GNN、图表示学习与图 Transformer 把关系结构变成可学习框架。

图论让 AI 不再只处理规则网格上的数据,而开始正面处理世界中的关系网络。

4.7 拓扑与几何

拓扑与几何处理的是“形状”问题:数据落在什么空间中,这个空间有哪些不变量、曲率与距离结构。Riemann 流形、Poincaré 的代数拓扑以及现代 TDA 都在这一脉络上。

它对 AI 的核心贡献包括:

  • 流形假设与流形学习;
  • 拓扑数据分析中的持续同调;
  • 信息几何与自然梯度;
  • 几何深度学习中关于对称性和结构域的统一视角。

4.8 逻辑学与形式推理

从 Aristotle、Boole、Frege 到 Gödel(1931)和 Turing(1936),逻辑学逐步奠定了规则系统、形式语言与推理边界。它长期构成符号 AI、知识表示、程序验证和自动定理证明的理论基础。

在大模型时代,逻辑学依然重要,因为它持续追问:

  • 规则推理和统计学习能否统一;
  • 符号一致性如何被保证;
  • 推理过程中的正确性、可验证性与可解释性如何实现。

4.9 因果推断

Pearl、Rubin 与结构因果模型让 AI 可以从“相关关系”进一步走向“机制关系”。因果推断的重要性在大模型时代反而更明显,因为仅靠大规模相关性并不能稳定回答干预、分布漂移和反事实问题。

它为 AI 带来的核心是:

  • 区分观测、干预与反事实;
  • 讨论机制迁移与分布外泛化;
  • 为科学发现、决策系统和鲁棒智能体提供更强结构。

5. 计算与系统工程

如果说数学与形式基础回答的是“原理是什么”,那么这一组回答的是“这些原理怎样成为现实系统”。

5.1 计算机科学

Turing(1936)、Church(1936)与 von Neumann(1945)奠定了可计算性、算法与存储程序体系结构的基础。计算机科学对 AI 的贡献主要体现在:

  • 给出“什么可以算、什么难算”的理论边界;
  • 提供搜索、编译、复杂度和数据结构工具;
  • 把 AI 从理论模型转成可执行程序与系统。

没有计算机科学,AI 就没有统一的实现语言。

5.2 数值分析

真实机器上的计算不是连续数学,而是有限精度下的近似。数值分析把误差、稳定性、收敛性和近似求解变成可控制问题。

它在 AI 中常常以更隐蔽的形式出现:

  • 梯度消失与爆炸可以从数值稳定性角度理解;
  • 混合精度训练、量化和迭代求解都依赖数值分析;
  • 神经 ODE、扩散模型和 PDE 相关方法都需要数值求解器。

5.3 信号处理

Fourier、Nyquist、Shannon 与现代数字信号处理把“连续信号”转成“可采样、可滤波、可重构”的对象。它直接影响了:

  • CNN 中的卷积与滤波思想;
  • 语音识别和时序建模中的频域表示;
  • 视觉、音频和传感器数据的前处理方式。

AI 中很多看似“深度学习专属”的技巧,其实都带有明显的信号处理血统。

5.4 控制论

Wiener 的控制论让反馈、通信、稳定性与目标导向行为进入同一框架。它在 AI 中的重要性主要体现在:

  • 智能体-环境交互的闭环视角;
  • Kalman 滤波、状态估计与最优控制;
  • 强化学习和模型预测控制之间的历史连续性。

控制论提醒我们:智能不是静态映射,而是持续感知、预测、修正与行动。

5.5 复杂性科学

复杂性科学处理的是另一个层级的问题:为什么大量局部交互会产生整体行为?为什么规模增长会带来涌现、自组织与临界变化?

在现代 AI 中,它越来越重要,因为我们面对的不再只是单个模型,而是:

  • 大规模基础模型;
  • 开放式 Agent 系统;
  • 多智能体生态;
  • 反馈驱动的复杂适应系统。

大模型时代的很多现象,如涌现能力、规模律与系统级行为,至少在概念上都与复杂性科学紧密相连。

5.6 AI 计算硬件与并行计算

从晶体管、集成电路和摩尔定律,到 GPU、CUDA、TPU 与分布式训练,AI 的很多突破都依赖硬件条件的成熟。现代 AI 之所以能走到大模型阶段,不只是因为理论准备好了,更因为:

  • 张量计算得到了专门硬件支持;
  • 显存、互联和并行调度使训练可扩展;
  • 混合精度和系统优化让巨量计算变得现实。

这说明工程实现不是理论的附庸,而是范式突破的前提条件之一。


6. 认知、生物与语言

这一组告诉我们,AI 并不只从数学里汲取灵感,自然智能本身也是重要来源。

6.1 神经科学

从 Cajal 的神经元理论,到 McCulloch-Pitts 模型、Hebb 学习规则、Hubel-Wiesel 的视觉皮层研究,神经科学为神经网络提供了最早的结构灵感。

它对 AI 的影响包括:

  • 神经元、层级表征与突触可塑性的抽象;
  • 感觉系统对视觉网络和注意力机制的启发;
  • 奖励信号与强化学习之间的联系。

6.2 认知科学

认知科学把知觉、记忆、推理、注意力与问题求解放进统一框架。它对 AI 的重要性在于,很多“智能能力”首先是认知问题,然后才是算法问题。

例如:

  • 工作记忆和上下文窗口之间有明显类比;
  • 注意力理论启发了选择性信息处理;
  • 双过程理论影响了对推理与启发式行为的讨论。

6.3 心理学

心理学把人类行为、决策偏差、学习机制与动机系统带入 AI。它尤其影响了:

  • 强化学习中的奖励与探索;
  • 人机交互与行为建模;
  • 对偏好、反馈、价值对齐的理解。

随着 RLHF 和对齐研究发展,心理学的地位反而越来越重要。

6.4 语言学

从 Saussure、Chomsky 到现代语义学、语用学与语料语言学,语言学为 NLP 提供了结构视角。即使今天的大语言模型依赖自监督学习,语言学依然在多个层面发挥作用:

  • 句法结构与层次表征;
  • 语义、指代与语境组织;
  • 语言作为认知与社会交互的接口。

Transformer 的成功并不意味着语言学过时,反而让“模型是否真正掌握语言结构”成为更尖锐的问题。

6.5 进化生物学

达尔文以来的进化理论、群体选择、适应与生态竞争,为 AI 提供了另一类重要启发:

  • 遗传算法与进化策略;
  • 多样性维持与开放式搜索;
  • 群体适应与复杂适应系统视角。

它让 AI 不只把学习看成梯度优化,也把它看成搜索、变异、选择与长期适应过程。


7. 决策、交互与社会机制

当 AI 从单模型走向多主体、平台化与社会化场景时,这一组学科的重要性快速上升。

7.1 运筹学

运筹学从二战期间的资源优化出发,逐步建立了线性规划、动态规划、MDP 与序贯决策的经典框架。它对 AI 的贡献非常直接:

  • 强化学习的数学骨架来自 MDP;
  • 搜索、调度、组合优化与资源配置都延续这一传统;
  • 许多“智能体决策”问题本质上是运筹学问题的学习化版本。

7.2 博弈论

von Neumann、Morgenstern 与 Nash 把交互式决策变成严密理论。博弈论在 AI 中的典型体现包括:

  • GAN 的对抗训练;
  • 多智能体强化学习;
  • 极小化极大搜索与围棋、国际象棋系统;
  • 鲁棒性、攻击与防御的对抗结构。

它的重要性在于:一旦系统中出现多个目标不同的主体,单主体最优化就不够了。

7.3 经济学

经济学处理资源、激励、市场、偏好与机制问题。它在 AI 中越来越重要,因为大模型与平台系统不仅是技术对象,也是激励系统:

  • 推荐系统与拍卖机制依赖市场设计;
  • 对齐问题常涉及偏好聚合与激励设计;
  • AI 部署会反过来改变劳动、信息与平台结构。

经济学让我们看到,AI 的行为不只由模型参数决定,也由它所嵌入的制度环境决定。


8. 物理与哲学基础

这一组回答的是:学习系统的能量、相变与认识边界如何约束我们对智能的理解。它们看似离 AI 最远,但实际上负责处理最深层的问题:学习系统为什么会这样演化,我们又该如何理解“智能”。

8.1 统计物理与能量模型

从 Boltzmann、Gibbs 到现代统计力学,统计物理为理解大规模系统中的分布、相变与能量景观提供了语言。它在 AI 中体现为:

  • Boltzmann 机与能量模型;
  • 扩散模型与随机过程;
  • Scaling 与相变类比;
  • 对损失景观和大规模系统行为的启发。

它尤其重要,因为现代 AI 也越来越像一个高维统计系统,而不仅是符号程序。

8.2 哲学

哲学持续追问两个根本问题:

  • 什么算智能、理解、意识与推理?
  • 我们应该如何评价、解释与约束智能系统?

从认识论、心灵哲学到伦理学,哲学并不直接提供训练算法,但它决定了:

  • 我们如何定义 AGI;
  • 我们是否把某种行为视为“理解”;
  • 我们如何讨论可解释性、责任与道德地位。

在大模型时代,哲学问题不是边缘问题,而是越来越靠近系统设计本身。


9. 对 AI 的核心贡献

从全景层回看,这 25 学科对 AI 的核心贡献不是平行展开,而是共同塑造了四种能力:

  • 表示能力:概率论、线性代数、图论、拓扑与几何决定模型如何把世界编码成可计算结构;
  • 学习能力:微积分、优化、信息论、逼近论与数值分析决定模型如何从数据中稳定更新;
  • 系统能力:计算机科学、控制论、复杂性科学与并行硬件决定模型如何扩展成可部署系统;
  • 智能边界与社会能力:认知科学、语言学、博弈论、经济学、哲学与因果推断决定模型如何推理、互动、对齐并被解释。

以大语言模型和智能体系统为例,今天的性能提升从来不是单一学科的胜利,而是“表示更强 + 训练更稳 + 系统更大 + 交互更复杂”四条线同时推进的结果。


10. 汇聚:从三次浪潮到大模型时代

如果把 AI 放回历史中,可以看到至少三次重要汇聚。

10.1 第一次浪潮:符号主义与早期乐观

1950 年代到 1970 年代,逻辑学、可计算性理论、控制论和早期认知科学共同塑造了最早的 AI 叙事。那时的核心信念是:只要把规则写清楚,机器就能表现出智能。

10.2 第二次浪潮:统计学习与连接主义回归

1980 年代到 2000 年代,反向传播、概率图模型、SVM、运筹学与强化学习共同推动了新一轮复兴。核心变化是:AI 不再只靠显式规则,也开始从数据中学习。

10.3 第三次浪潮:深度学习与大模型

2010 年代以后,深度学习成为主要范式。其背后不是单一学科突破,而是多条线同时成熟:

  • 数学上:优化、表示学习、信息论与逼近论积累成熟;
  • 工程上:GPU、并行计算与大规模数据成为现实;
  • 结构上:CNN、RNN、Transformer 等架构吸收了信号处理、神经科学、语言学与几何视角;
  • 系统上:复杂性科学、多智能体、对齐与经济激励问题重新进入中心。

10.4 一张压缩时间线

数学与形式基础
  概率统计        Pascal/Fermat ─ Bayes/Laplace ─ Fisher ─ 贝叶斯学习/统计学习
  线性代数        Cayley ─ Grassmann ─ Hilbert ─ 向量表示/矩阵计算/注意力
  微积分优化      Newton/Leibniz ─ Euler/Lagrange ─ SGD/Adam ─ 反向传播
  信息论          Shannon'48 ─ KL'51 ─ 信息瓶颈 ─ 交叉熵/对比学习
  逼近论          Weierstrass'85 ─ RKHS ─ UAT ─ 深度表达理论
  图论            Euler'36 ─ Dijkstra'59 ─ PageRank'98 ─ GNN/知识图谱
  拓扑与几何      Riemann ─ Poincaré ─ Isomap'00 ─ 几何深度学习
  逻辑学          Aristotle ─ Boole ─ Frege ─ Gödel/Turing ─ 形式推理
  因果推断        Fisher ─ Rubin ─ Pearl ─ SCM/反事实推理

计算与系统工程
  计算机科学      Turing'36 ─ von Neumann ─ 复杂度理论 ─ 现代 AI 软件栈
  数值分析        Gauss ─ Wilkinson ─ IEEE754 ─ 混合精度/稳定训练
  信号处理        Fourier ─ Nyquist ─ FFT'65 ─ CNN/频域方法
  控制论          Wiener'48 ─ Kalman'60 ─ 最优控制 ─ RL/智能体
  复杂性科学      Anderson'72 ─ Santa Fe'84 ─ Scaling Law ─ 涌现系统
  AI硬件并行      晶体管'47 ─ GPU/CUDA ─ TPU ─ 大模型训练基础设施

认知、生物与语言
  神经科学        Hubel/Wiesel'62 ─ Hebb ─ 神经网络 ─ 脑启发架构
  认知科学        Marr'82 ─ 连接主义 ─ 计算认知 ─ 多模态理解
  心理学          Wundt ─ Behaviorism ─ 认知革命 ─ 心智模型/对齐
  语言学          Saussure ─ Chomsky'57 ─ 分布假设 ─ NLP/大语言模型
  进化生物学      Darwin ─ 适应度 ─ 进化算法 ─ 生成模型/探索

决策、交互与社会机制
  运筹学          Dantzig'47 ─ Bellman ─ 最优化 ─ 强化学习/规划
  博弈论          von Neumann'44 ─ Nash'50 ─ 机制设计 ─ 多智能体/激励
  经济学          Smith ─ 边际革命 ─ 市场设计 ─ 对齐/治理

物理与哲学基础
  统计物理        Boltzmann ─ Gibbs ─ 相变/熵 ─ 能量模型/扩散模型
  哲学            Aristotle ─ Descartes ─ 认识论 ─ 心灵哲学/对齐问题

11. 前沿与开放问题

如果 AGI 是可能的,它大概率不会来自单一点突破,而会来自以下几条线的继续汇聚:

  • 更强的表示与推理结合,而不是单纯扩大参数;
  • 更稳定的开放式智能体系统,而不是孤立模型;
  • 更明确的因果、结构和世界模型;
  • 更成熟的多主体协作、激励与治理机制;
  • 更严肃的哲学与社会层约束。

这也意味着,通向 AGI 的道路不会只是一条“更大模型”的路线,而是一套跨学科条件共同成熟的结果。规模可能是必要条件之一,但不会自动替代结构、机制、交互与目标问题。

25 学科结构的意义也在于:它不是为了做更细的目录,而是为了让“AI 为什么会成为今天的 AI”这件事,在同一张知识地图上变得可见。


12. 推荐阅读与参考文献

推荐阅读

  • Russell, S., & Norvig, P. (2020). Artificial Intelligence: A Modern Approach. Pearson.
  • Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  • Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
  • Pearl, J. (2009). Causality. Cambridge University Press.
  • Marr, D. (1982). Vision. W. H. Freeman.
  • Bronstein, M. M., et al. (2021). Geometric deep learning: Grids, groups, graphs, geodesics, and gauges. arXiv:2104.13478.

参考文献

  • Turing, A. M. (1950). Computing machinery and intelligence. Mind, 59(236), 433-460.
  • Turing, A. M. (1936). On computable numbers, with an application to the Entscheidungsproblem. Proceedings of the London Mathematical Society, 42(2), 230-265.
  • Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27, 379-423, 623-656.
  • Wiener, N. (1948). Cybernetics. MIT Press.
  • von Neumann, J. (1945). First draft of a report on the EDVAC.
  • von Neumann, J., & Morgenstern, O. (1944). Theory of Games and Economic Behavior. Princeton University Press.
  • Marr, D. (1982). Vision. W. H. Freeman.
  • Simon, H. A. (1962). The architecture of complexity. Proceedings of the American Philosophical Society, 106(6), 467-482.
  • Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533-536.
  • Pearl, J. (2009). Causality. Cambridge University Press.
  • Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  • LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521, 436-444.
  • Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
  • Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
  • Russell, S., & Norvig, P. (2020). Artificial Intelligence: A Modern Approach. Pearson.
  • Bronstein, M. M., et al. (2021). Geometric deep learning: Grids, groups, graphs, geodesics, and gauges. arXiv:2104.13478.
  • Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
  • Bommasani, R., et al. (2021). On the opportunities and risks of foundation models. arXiv:2108.07258.