从基础学科到通用人工智能：25 学科全景综述

版本：v2.1
日期：2026-04-08

摘要：本文按 25 个基础学科重新组织人工智能的发展脉络，解释为什么现代 AI 不是单一技术路线的自然结果，而是数学、工程、认知、生物、社会科学、物理学与哲学长期汇流的产物。本文不替代专题文档，而是在全景层回答三个问题：这些学科分别解决什么问题，它们如何在历史上汇聚成现代 AI，以及它们为何在大模型与智能体时代重新变得重要。

本文是中文文档主线中的全景综述正文。专题导航请见文档导航、专题索引与知识地图。

1. 上帝视角

人工智能经常被归类为计算机科学的一个分支，但这种说法只对实现层成立，对知识来源并不成立。现代 AI 的核心方法几乎都带着明显的跨学科血统：

反向传播继承自微积分与优化；
神经网络的结构灵感来自神经科学；
强化学习的数学骨架来自概率论、运筹学与控制论；
大语言模型既依赖统计学习，也依赖语言学、认知科学与大规模系统工程；
对齐、激励、多智能体与治理问题又把经济学、博弈论、哲学和复杂性科学重新拉回中心。

因此，更准确的说法是：AI 是一门汇聚型学科。

本文按 25 学科结构展开。它的目标不是代替各专题页，而是给出一张全景地图，让读者理解：

哪些基础学科构成了 AI 的底层语言；
哪些学科负责把理论变成工程系统；
哪些学科持续提供关于自然智能、社会交互与智能边界的参照系。

2. 历史脉络

全文按“五组二十五学科”展开：

分组	学科编号	核心问题
数学与形式基础	01-09	AI 用什么数学语言表示世界、优化参数、表达结构与推理机制
计算与系统工程	10-15	这些理论怎样被算出来、控出来、扩展成真实系统
认知、生物与语言	16-20	自然智能如何形成，以及它给 AI 提供了哪些启发与约束
决策、交互与社会机制	21-23	多主体如何决策、互动、分配资源并形成激励结构
物理与哲学基础	24-25	学习系统的能量、复杂性与认识边界如何被理解

如果把这条汇流线再压成几个年份锚点，可以看到更清楚的历史骨架：17 世纪的 Pascal 与 Fermat 奠定概率问题；19 世纪的 Boole、Riemann、Weierstrass 把逻辑、几何与逼近论推向现代形式；20 世纪中叶的 Turing（1936）、von Neumann（1945）、Shannon（1948）与 Wiener（1948）定义了可计算性、存储程序、信息与反馈；1986 年反向传播带来连接主义复兴；2012 年 AlexNet、2017 年 Transformer、2022 年 ChatGPT 则把这些长期积累推入大模型时代。

这五组并不是静态分类，而是一条历史汇流线。AI 的每一次大跃迁，几乎都伴随着这五组中的多个方向同时成熟。

3. 核心知识点

把 25 学科压缩成一张可操作的地图，可以抓住五个判断：

数学与形式基础决定了 AI 如何表示、推断、优化与刻画结构；
计算与系统工程决定了这些理论能否在真实机器上稳定、大规模地跑起来；
认知、生物与语言提供了自然智能的参照系，也持续塑造“什么算智能能力”的问题设定；
决策、交互与社会机制决定了当系统进入多主体、平台化与激励约束场景后如何运作；
物理与哲学基础则分别从统计系统与认识边界两个方向，解释 AI 为什么会呈现出今天的宏观行为与争议。

因此，这 25 学科不是简单堆砌，而是一组从表示到系统、从个体到社会、从实现到边界的闭环。

4. 数学与形式基础

这一组回答的是：AI 的底层形式语言来自哪里？如果没有这一层，模型只能是经验性的技巧集合，而不能成为可分析、可迁移、可扩展的知识体系。

4.1 概率论与数理统计

从 Pascal 与 Fermat 的赌注问题，到 Bayes、Laplace、Kolmogorov 与 Fisher，概率论和统计学逐步把“不确定性”变成可计算对象。它对 AI 的贡献主要体现在：

建立贝叶斯推断、统计学习和不确定性建模框架；
让分类、估计、采样和泛化可以被严格讨论；
为强化学习中的随机过程、因果推断中的数据生成机制提供语言。

现代机器学习在很大程度上就是“从数据中学习概率分布”的工程化过程。

4.2 线性代数

从 Cayley、Grassmann 到现代数值线性代数，线性代数为 AI 提供了最直接的计算语言。向量、矩阵、特征值、SVD 与张量几乎出现在所有现代模型中。

它的重要性不止于“神经网络要做矩阵乘法”，还在于：

表示学习本质上是在高维向量空间中组织语义；
注意力、嵌入、低秩近似和谱方法都依赖线性结构；
GPU 与 AI 加速器的很多设计，本质上也是围绕线性代数操作重构。

4.3 微积分与优化理论

Newton、Leibniz 建立微积分，Euler、Lagrange、Cauchy 与 20 世纪的优化理论则把“变化”和“极值”变成现代计算方法。AI 的训练过程本质上是一个可微优化问题：

反向传播是链式法则在计算图上的系统应用；
SGD、Momentum、Adam 等优化器都属于优化理论的工程变体；
变分推断、策略梯度、神经 ODE 也都直接依赖这一传统。

如果说线性代数是模型的静态骨架，那么微积分与优化理论就是训练它们的动力系统。

4.4 信息论

Shannon 在 1948 年定义熵以后，“信息”第一次获得了严格数学形态。信息论对 AI 的影响非常深：

交叉熵和 KL 散度成为最常见的训练目标；
互信息进入表示学习、对比学习和特征选择；
信息瓶颈试图解释深度网络为什么会形成有用表示。

信息论还提醒我们：学习从来不只是拟合，而是压缩、保留和传递有用信息。

4.5 逼近论

从 Weierstrass 逼近定理到泛函分析与 RKHS，逼近论为神经网络的表达能力提供了理论底座。万能逼近定理解释了为什么神经网络有能力表达复杂函数，但更重要的是：

它把“网络能不能表达”与“网络能不能训练好”分离开来；
它帮助研究深度、宽度与函数复杂度之间的关系；
它让核方法、无限宽网络和函数空间分析进入同一条理论线索。

4.6 图论

图论之所以在这张 25 学科地图中单列，是因为它解决的问题与连续几何不同。Euler 对柯尼斯堡七桥问题的抽象，把“关系结构”变成了数学对象。今天它直接进入 AI 中心：

知识图谱、推荐系统、社交网络、分子结构都天然是图；
最短路、匹配、流等算法支撑结构化搜索与调度；
GNN、图表示学习与图 Transformer 把关系结构变成可学习框架。

图论让 AI 不再只处理规则网格上的数据，而开始正面处理世界中的关系网络。

4.7 拓扑与几何

拓扑与几何处理的是“形状”问题：数据落在什么空间中，这个空间有哪些不变量、曲率与距离结构。Riemann 流形、Poincaré 的代数拓扑以及现代 TDA 都在这一脉络上。

它对 AI 的核心贡献包括：

流形假设与流形学习；
拓扑数据分析中的持续同调；
信息几何与自然梯度；
几何深度学习中关于对称性和结构域的统一视角。

4.8 逻辑学与形式推理

从 Aristotle、Boole、Frege 到 Gödel（1931）和 Turing（1936），逻辑学逐步奠定了规则系统、形式语言与推理边界。它长期构成符号 AI、知识表示、程序验证和自动定理证明的理论基础。

在大模型时代，逻辑学依然重要，因为它持续追问：

规则推理和统计学习能否统一；
符号一致性如何被保证；
推理过程中的正确性、可验证性与可解释性如何实现。

4.9 因果推断

Pearl、Rubin 与结构因果模型让 AI 可以从“相关关系”进一步走向“机制关系”。因果推断的重要性在大模型时代反而更明显，因为仅靠大规模相关性并不能稳定回答干预、分布漂移和反事实问题。

它为 AI 带来的核心是：

区分观测、干预与反事实；
讨论机制迁移与分布外泛化；
为科学发现、决策系统和鲁棒智能体提供更强结构。

5. 计算与系统工程

如果说数学与形式基础回答的是“原理是什么”，那么这一组回答的是“这些原理怎样成为现实系统”。

5.1 计算机科学

Turing（1936）、Church（1936）与 von Neumann（1945）奠定了可计算性、算法与存储程序体系结构的基础。计算机科学对 AI 的贡献主要体现在：

给出“什么可以算、什么难算”的理论边界；
提供搜索、编译、复杂度和数据结构工具；
把 AI 从理论模型转成可执行程序与系统。

没有计算机科学，AI 就没有统一的实现语言。

5.2 数值分析

真实机器上的计算不是连续数学，而是有限精度下的近似。数值分析把误差、稳定性、收敛性和近似求解变成可控制问题。

它在 AI 中常常以更隐蔽的形式出现：

梯度消失与爆炸可以从数值稳定性角度理解；
混合精度训练、量化和迭代求解都依赖数值分析；
神经 ODE、扩散模型和 PDE 相关方法都需要数值求解器。

5.3 信号处理

Fourier、Nyquist、Shannon 与现代数字信号处理把“连续信号”转成“可采样、可滤波、可重构”的对象。它直接影响了：

CNN 中的卷积与滤波思想；
语音识别和时序建模中的频域表示；
视觉、音频和传感器数据的前处理方式。

AI 中很多看似“深度学习专属”的技巧，其实都带有明显的信号处理血统。

5.4 控制论

Wiener 的控制论让反馈、通信、稳定性与目标导向行为进入同一框架。它在 AI 中的重要性主要体现在：

智能体-环境交互的闭环视角；
Kalman 滤波、状态估计与最优控制；
强化学习和模型预测控制之间的历史连续性。

控制论提醒我们：智能不是静态映射，而是持续感知、预测、修正与行动。

5.5 复杂性科学

复杂性科学处理的是另一个层级的问题：为什么大量局部交互会产生整体行为？为什么规模增长会带来涌现、自组织与临界变化？

在现代 AI 中，它越来越重要，因为我们面对的不再只是单个模型，而是：

大规模基础模型；
开放式 Agent 系统；
多智能体生态；
反馈驱动的复杂适应系统。

大模型时代的很多现象，如涌现能力、规模律与系统级行为，至少在概念上都与复杂性科学紧密相连。

5.6 AI 计算硬件与并行计算

从晶体管、集成电路和摩尔定律，到 GPU、CUDA、TPU 与分布式训练，AI 的很多突破都依赖硬件条件的成熟。现代 AI 之所以能走到大模型阶段，不只是因为理论准备好了，更因为：

张量计算得到了专门硬件支持；
显存、互联和并行调度使训练可扩展；
混合精度和系统优化让巨量计算变得现实。

这说明工程实现不是理论的附庸，而是范式突破的前提条件之一。

6. 认知、生物与语言

这一组告诉我们，AI 并不只从数学里汲取灵感，自然智能本身也是重要来源。

6.1 神经科学

从 Cajal 的神经元理论，到 McCulloch-Pitts 模型、Hebb 学习规则、Hubel-Wiesel 的视觉皮层研究，神经科学为神经网络提供了最早的结构灵感。

它对 AI 的影响包括：

神经元、层级表征与突触可塑性的抽象；
感觉系统对视觉网络和注意力机制的启发；
奖励信号与强化学习之间的联系。

6.2 认知科学

认知科学把知觉、记忆、推理、注意力与问题求解放进统一框架。它对 AI 的重要性在于，很多“智能能力”首先是认知问题，然后才是算法问题。

例如：

工作记忆和上下文窗口之间有明显类比；
注意力理论启发了选择性信息处理；
双过程理论影响了对推理与启发式行为的讨论。

6.3 心理学

心理学把人类行为、决策偏差、学习机制与动机系统带入 AI。它尤其影响了：

强化学习中的奖励与探索；
人机交互与行为建模；
对偏好、反馈、价值对齐的理解。

随着 RLHF 和对齐研究发展，心理学的地位反而越来越重要。

6.4 语言学

从 Saussure、Chomsky 到现代语义学、语用学与语料语言学，语言学为 NLP 提供了结构视角。即使今天的大语言模型依赖自监督学习，语言学依然在多个层面发挥作用：

句法结构与层次表征；
语义、指代与语境组织；
语言作为认知与社会交互的接口。

Transformer 的成功并不意味着语言学过时，反而让“模型是否真正掌握语言结构”成为更尖锐的问题。

6.5 进化生物学

达尔文以来的进化理论、群体选择、适应与生态竞争，为 AI 提供了另一类重要启发：

遗传算法与进化策略；
多样性维持与开放式搜索；
群体适应与复杂适应系统视角。

它让 AI 不只把学习看成梯度优化，也把它看成搜索、变异、选择与长期适应过程。

7. 决策、交互与社会机制

当 AI 从单模型走向多主体、平台化与社会化场景时，这一组学科的重要性快速上升。

7.1 运筹学

运筹学从二战期间的资源优化出发，逐步建立了线性规划、动态规划、MDP 与序贯决策的经典框架。它对 AI 的贡献非常直接：

强化学习的数学骨架来自 MDP；
搜索、调度、组合优化与资源配置都延续这一传统；
许多“智能体决策”问题本质上是运筹学问题的学习化版本。

7.2 博弈论

von Neumann、Morgenstern 与 Nash 把交互式决策变成严密理论。博弈论在 AI 中的典型体现包括：

GAN 的对抗训练；
多智能体强化学习；
极小化极大搜索与围棋、国际象棋系统；
鲁棒性、攻击与防御的对抗结构。

它的重要性在于：一旦系统中出现多个目标不同的主体，单主体最优化就不够了。

7.3 经济学

经济学处理资源、激励、市场、偏好与机制问题。它在 AI 中越来越重要，因为大模型与平台系统不仅是技术对象，也是激励系统：

推荐系统与拍卖机制依赖市场设计；
对齐问题常涉及偏好聚合与激励设计；
AI 部署会反过来改变劳动、信息与平台结构。

经济学让我们看到，AI 的行为不只由模型参数决定，也由它所嵌入的制度环境决定。

8. 物理与哲学基础

这一组回答的是：学习系统的能量、相变与认识边界如何约束我们对智能的理解。它们看似离 AI 最远，但实际上负责处理最深层的问题：学习系统为什么会这样演化，我们又该如何理解“智能”。

8.1 统计物理与能量模型

从 Boltzmann、Gibbs 到现代统计力学，统计物理为理解大规模系统中的分布、相变与能量景观提供了语言。它在 AI 中体现为：

Boltzmann 机与能量模型；
扩散模型与随机过程；
Scaling 与相变类比；
对损失景观和大规模系统行为的启发。

它尤其重要，因为现代 AI 也越来越像一个高维统计系统，而不仅是符号程序。

8.2 哲学

哲学持续追问两个根本问题：

什么算智能、理解、意识与推理？
我们应该如何评价、解释与约束智能系统？

从认识论、心灵哲学到伦理学，哲学并不直接提供训练算法，但它决定了：

我们如何定义 AGI；
我们是否把某种行为视为“理解”；
我们如何讨论可解释性、责任与道德地位。

在大模型时代，哲学问题不是边缘问题，而是越来越靠近系统设计本身。

9. 对 AI 的核心贡献

从全景层回看，这 25 学科对 AI 的核心贡献不是平行展开，而是共同塑造了四种能力：

表示能力：概率论、线性代数、图论、拓扑与几何决定模型如何把世界编码成可计算结构；
学习能力：微积分、优化、信息论、逼近论与数值分析决定模型如何从数据中稳定更新；
系统能力：计算机科学、控制论、复杂性科学与并行硬件决定模型如何扩展成可部署系统；
智能边界与社会能力：认知科学、语言学、博弈论、经济学、哲学与因果推断决定模型如何推理、互动、对齐并被解释。

以大语言模型和智能体系统为例，今天的性能提升从来不是单一学科的胜利，而是“表示更强 + 训练更稳 + 系统更大 + 交互更复杂”四条线同时推进的结果。

10. 汇聚：从三次浪潮到大模型时代

如果把 AI 放回历史中，可以看到至少三次重要汇聚。

10.1 第一次浪潮：符号主义与早期乐观

1950 年代到 1970 年代，逻辑学、可计算性理论、控制论和早期认知科学共同塑造了最早的 AI 叙事。那时的核心信念是：只要把规则写清楚，机器就能表现出智能。

10.2 第二次浪潮：统计学习与连接主义回归

1980 年代到 2000 年代，反向传播、概率图模型、SVM、运筹学与强化学习共同推动了新一轮复兴。核心变化是：AI 不再只靠显式规则，也开始从数据中学习。

10.3 第三次浪潮：深度学习与大模型

2010 年代以后，深度学习成为主要范式。其背后不是单一学科突破，而是多条线同时成熟：

数学上：优化、表示学习、信息论与逼近论积累成熟；
工程上：GPU、并行计算与大规模数据成为现实；
结构上：CNN、RNN、Transformer 等架构吸收了信号处理、神经科学、语言学与几何视角；
系统上：复杂性科学、多智能体、对齐与经济激励问题重新进入中心。

10.4 一张压缩时间线

数学与形式基础
  概率统计        Pascal/Fermat ─ Bayes/Laplace ─ Fisher ─ 贝叶斯学习/统计学习
  线性代数        Cayley ─ Grassmann ─ Hilbert ─ 向量表示/矩阵计算/注意力
  微积分优化      Newton/Leibniz ─ Euler/Lagrange ─ SGD/Adam ─ 反向传播
  信息论          Shannon'48 ─ KL'51 ─ 信息瓶颈 ─ 交叉熵/对比学习
  逼近论          Weierstrass'85 ─ RKHS ─ UAT ─ 深度表达理论
  图论            Euler'36 ─ Dijkstra'59 ─ PageRank'98 ─ GNN/知识图谱
  拓扑与几何      Riemann ─ Poincaré ─ Isomap'00 ─ 几何深度学习
  逻辑学          Aristotle ─ Boole ─ Frege ─ Gödel/Turing ─ 形式推理
  因果推断        Fisher ─ Rubin ─ Pearl ─ SCM/反事实推理

计算与系统工程
  计算机科学      Turing'36 ─ von Neumann ─ 复杂度理论 ─ 现代 AI 软件栈
  数值分析        Gauss ─ Wilkinson ─ IEEE754 ─ 混合精度/稳定训练
  信号处理        Fourier ─ Nyquist ─ FFT'65 ─ CNN/频域方法
  控制论          Wiener'48 ─ Kalman'60 ─ 最优控制 ─ RL/智能体
  复杂性科学      Anderson'72 ─ Santa Fe'84 ─ Scaling Law ─ 涌现系统
  AI硬件并行      晶体管'47 ─ GPU/CUDA ─ TPU ─ 大模型训练基础设施

认知、生物与语言
  神经科学        Hubel/Wiesel'62 ─ Hebb ─ 神经网络 ─ 脑启发架构
  认知科学        Marr'82 ─ 连接主义 ─ 计算认知 ─ 多模态理解
  心理学          Wundt ─ Behaviorism ─ 认知革命 ─ 心智模型/对齐
  语言学          Saussure ─ Chomsky'57 ─ 分布假设 ─ NLP/大语言模型
  进化生物学      Darwin ─ 适应度 ─ 进化算法 ─ 生成模型/探索

决策、交互与社会机制
  运筹学          Dantzig'47 ─ Bellman ─ 最优化 ─ 强化学习/规划
  博弈论          von Neumann'44 ─ Nash'50 ─ 机制设计 ─ 多智能体/激励
  经济学          Smith ─ 边际革命 ─ 市场设计 ─ 对齐/治理

物理与哲学基础
  统计物理        Boltzmann ─ Gibbs ─ 相变/熵 ─ 能量模型/扩散模型
  哲学            Aristotle ─ Descartes ─ 认识论 ─ 心灵哲学/对齐问题

11. 前沿与开放问题

如果 AGI 是可能的，它大概率不会来自单一点突破，而会来自以下几条线的继续汇聚：

更强的表示与推理结合，而不是单纯扩大参数；
更稳定的开放式智能体系统，而不是孤立模型；
更明确的因果、结构和世界模型；
更成熟的多主体协作、激励与治理机制；
更严肃的哲学与社会层约束。

这也意味着，通向 AGI 的道路不会只是一条“更大模型”的路线，而是一套跨学科条件共同成熟的结果。规模可能是必要条件之一，但不会自动替代结构、机制、交互与目标问题。

25 学科结构的意义也在于：它不是为了做更细的目录，而是为了让“AI 为什么会成为今天的 AI”这件事，在同一张知识地图上变得可见。

12. 推荐阅读与参考文献

参考文献

Turing, A. M. (1950). Computing machinery and intelligence. Mind, 59(236), 433-460.
Turing, A. M. (1936). On computable numbers, with an application to the Entscheidungsproblem. Proceedings of the London Mathematical Society, 42(2), 230-265.
Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27, 379-423, 623-656.
Wiener, N. (1948). Cybernetics. MIT Press.
von Neumann, J. (1945). First draft of a report on the EDVAC.
von Neumann, J., & Morgenstern, O. (1944). Theory of Games and Economic Behavior. Princeton University Press.
Marr, D. (1982). Vision. W. H. Freeman.
Simon, H. A. (1962). The architecture of complexity. Proceedings of the American Philosophical Society, 106(6), 467-482.
Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323, 533-536.
Pearl, J. (2009). Causality. Cambridge University Press.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521, 436-444.
Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
Russell, S., & Norvig, P. (2020). Artificial Intelligence: A Modern Approach. Pearson.
Bronstein, M. M., et al. (2021). Geometric deep learning: Grids, groups, graphs, geodesics, and gauges. arXiv:2104.13478.
Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
Bommasani, R., et al. (2021). On the opportunities and risks of foundation models. arXiv:2108.07258.

FilesExpand file tree

00-overview.md

Latest commit

History