| title | 认知科学 | |||
|---|---|---|---|---|
| aliases |
|
|||
| category |
|
|||
| tags |
|
|||
| type | topic | |||
| status | stable | |||
| importance | core | |||
| version | v2.1 | |||
| date | 2026-04-08 |
上帝视角:认知科学为 AI 提供了功能层面的参考框架,但这种关系多数并不是“某个认知理论直接变成一个模型模块”。注意力、工作记忆、双过程推理、具身认知等概念,更多是在目标设定、能力分解、评价标准与解释框架上影响 AI。理解认知科学,有助于知道 AI 在模仿什么、偏离什么、还缺什么。
- [[16-neuroscience|神经科学]]:前者研究功能与表征,后者研究生物实现机制
- [[18-psychology|心理学]]:心理学更强调实验范式与行为规律,认知科学更强调跨学科统一解释框架
- [[19-linguistics|语言学]]:语言是认知系统的关键窗口,也是现代 LLM 的核心任务域
- [[25-philosophy|哲学]]:意识、表征、意义与心灵问题构成认知科学的重要概念背景
- [[10-computer-science|计算机科学]]:认知理论要转成可执行模型,仍需要算法、表示与计算复杂度工具
人工智能的终极目标是构建具有通用智能的系统。但"智能"本身是一个认知概念——如果我们不理解人类智能的运作方式,就难以定义 AI 应该达到什么标准。认知科学为此提供了功能层面的参考框架。
不过,认知科学进入 AI 的方式通常可以分成三类:
- 启发:给出值得建模的能力模块,例如注意力、工作记忆、元认知
- 类比:帮助我们解释模型行为,例如把 CoT 看作某种“慢思考”近似
- 功能对应:在任务层面建立较稳定的映射,例如记忆缓冲、任务切换、规划监控
在这个前提下,认知科学为 AI 提供了以下参照:
- 输入处理:人类如何从嘈杂的感官信号中提取有意义的信息?→ 为 AI 的感知模块提供设计参考
- 注意力分配:面对海量信息,人类如何选择性地处理关键部分?→ 启发了注意力机制(attention mechanism)
- 记忆系统:短期记忆的容量限制如何影响推理?→ 为上下文窗口(context window)设计提供认知依据
- 推理决策:人类如何在不确定性下做出判断?→ 为概率推理与决策模型提供参考
- 语言理解:人类如何理解和生成自然语言?→ 为自然语言处理(NLP)提供功能目标
- 学习迁移:人类如何将已有知识迁移到新领域?→ 为迁移学习(transfer learning)提供启发
| 学科 | 与认知科学的关系 | 对 AI 的影响 |
|---|---|---|
| 神经科学(Neuroscience) | 提供认知的生物基础 | 为神经网络架构提供生物学启发 |
| 心理学(Psychology) | 提供行为层面的认知规律 | 为强化学习的奖励机制设计提供参考 |
| 语言学(Linguistics) | 提供语言处理的理论框架 | 为 NLP 模型提供设计原则 |
| 哲学(Philosophy) | 提供意识、心智的概念框架 | 为 AI 伦理与意识问题提供讨论基础 |
| 计算机科学(Computer Science) | 提供计算建模工具 | 为认知模型提供实现平台 |
| 数学(Mathematics) | 提供形式化描述语言 | 为认知过程提供数学建模工具 |
| 人类学(Anthropology) | 提供文化与社会认知视角 | 为多智能体系统的社会行为提供建模参考 |
认知科学内部也并非铁板一块。它至少长期并存着几种张力:
- 符号主义 vs. 连接主义:智能更像规则操作,还是分布式表征的统计涌现?
- 计算表征观 vs. 具身生成观:认知主要发生在内部模型中,还是发生在身体与环境的闭环耦合中?
- 规范模型 vs. 描述模型:我们是在刻画人类真实如何思考,还是在构建一个理想化的理性框架?
这些分歧正是认知科学对 AI 有价值的地方:它既提供设计灵感,也不断提醒我们不要把任何一个理论误写成“唯一正确的智能蓝图”(Newell, 1990;Varela et al., 1991;Tenenbaum et al., 2011)。
认知科学的诞生并非偶然,而是多条学术线索在 20 世纪中叶的汇聚:
- 控制论(Cybernetics):Norbert Wiener (1948) 在《控制论》中提出反馈控制的概念,将机器与生物体的行为统一在同一框架下。这为"机器可以思考"的观念提供了理论基础。
- 信息论(Information Theory):Claude Shannon (1948) 的信息论为"信息处理"提供了数学工具,使得将大脑理解为信息处理系统成为可能。
- 图灵测试(Turing Test):Alan Turing (1950) 在《Computing Machinery and Intelligence》中提出了判断机器是否具有智能的操作性标准。
1956 年是认知科学的"奇迹年",多个里程碑事件几乎同时发生:
- 达特茅斯会议(Dartmouth Conference, 1956):John McCarthy、Marvin Minsky、Allen Newell、Herbert Simon 等人正式提出"人工智能"概念。这次会议标志着 AI 作为独立学科的诞生。
- George Miller (1956):发表经典论文《The Magical Number Seven, Plus or Minus Two》,揭示短期记忆的容量限制为 7±2 个组块(chunk)。这一发现深刻影响了后来的工作记忆理论,也为 AI 系统的上下文窗口设计提供了认知依据。
- Noam Chomsky (1957):发表《Syntactic Structures》,提出转换生成语法(transformational generative grammar),论证语言能力是人类先天的认知能力,而非单纯的行为习得。这直接挑战了行为主义,为认知科学的兴起扫清了障碍。
- Donald Broadbent (1958):提出注意力过滤器模型(filter model of attention),认为人类通过一个"瓶颈"机制选择性地处理信息。这是注意力研究的开端,也为 AI 注意力机制提供了认知学启发。
- Allen Newell & Herbert Simon (1972):在《Human Problem Solving》中提出物理符号系统假说(Physical Symbol System Hypothesis),主张"一个物理符号系统具有通用智能行为的充分必要条件"。这一假说成为符号 AI(symbolic AI)的理论基石。
- 1977 年:Alfred P. Sloan 基金会资助成立认知科学项目,正式将心理学、语言学、计算机科学、神经科学、哲学和人类学六大学科整合为"认知科学"。
- 1979 年:《Cognitive Science》期刊创刊,认知科学学会(Cognitive Science Society)成立。
- David Marr (1982):在《Vision》中提出视觉计算理论的三个层次——计算理论层、算法与表征层、实现层。这一框架至今仍是理解认知系统(包括 AI 系统)的重要方法论。
- 联结主义复兴(Connectionism Revival):Rumelhart, Hinton & Williams (1986) 提出反向传播算法(backpropagation),重新点燃了用神经网络模拟认知过程的热情。PDP(Parallel Distributed Processing)研究组的工作表明,许多认知现象可以用分布式表征来解释。
- Daniel Kahneman (2002/2011):获得诺贝尔经济学奖,其著作《Thinking, Fast and Slow》(2011) 系统阐述了双过程理论(dual-process theory)——System 1(快速、直觉、自动)与 System 2(缓慢、审慎、受控)。这一框架为 AI 中的 Chain-of-Thought 推理提供了认知学启发。
- 具身认知(Embodied Cognition)运动:Lakoff & Johnson (1999)、Varela, Thompson & Rosch (1991) 等学者主张认知不仅仅是大脑中的计算,而是身体与环境交互的产物。这一观点对机器人学和具身 AI 产生了深远影响。
- 贝叶斯认知(Bayesian Cognition):Tenenbaum et al. (2011) 等研究者提出人类认知本质上是贝叶斯推理过程,用概率模型解释学习、推理和决策。这与 AI 中的概率图模型和贝叶斯深度学习形成了呼应。
- 预测编码(Predictive Coding):Karl Friston (2010) 提出自由能原理(free energy principle),认为大脑本质上是一个预测机器,不断生成对感官输入的预测并最小化预测误差。这一理论正在影响新一代 AI 架构的设计。
注意力(attention)是认知科学中最核心的概念之一。人类每时每刻都面临海量的感官输入,但认知资源是有限的,因此必须选择性地处理信息。
注意力理论的演进:
-
过滤器模型(Filter Model)——Broadbent (1958)
- 信息在早期感觉阶段就被过滤,只有被选中的通道才能进入高级处理
- 类比:一个单通道的瓶颈,一次只能通过一条信息流
- 局限:无法解释"鸡尾酒会效应"(cocktail party effect)——人们能在嘈杂环境中突然注意到自己的名字
-
衰减模型(Attenuation Model)——Treisman (1964)
- 未被选中的信息不是被完全过滤,而是被衰减(降低强度)
- 高度相关的信息(如自己的名字)即使被衰减也能突破阈值
- 这更接近现实中的注意力行为
-
特征整合理论(Feature Integration Theory)——Treisman & Gelade (1980)
- 视觉注意力分两个阶段:前注意阶段(parallel,自动提取基本特征)和聚焦注意阶段(serial,将特征绑定为物体)
- 解释了视觉搜索中的"弹出效应"(pop-out effect)
-
执行注意力(Executive Attention)——Posner & Petersen (1990)
- 注意力不是单一机制,而是包含三个网络:警觉网络(alerting)、定向网络(orienting)、执行控制网络(executive control)
- 执行控制网络负责冲突解决和任务切换
| 认知注意力概念 | AI 注意力机制 | 对应关系 |
|---|---|---|
| 选择性注意力 | Bahdanau Attention (2014) | 在序列中选择性关注相关位置 |
| 自上而下注意力 | Query-Key 机制 | 用查询向量引导注意力分配 |
| 多通道注意力 | Multi-Head Attention | 多个注意力头并行处理不同特征 |
| 注意力的有限容量 | Softmax 归一化 | 注意力权重总和为 1,体现资源竞争 |
| 空间注意力 | 视觉 Transformer 的 patch attention | 对图像不同区域的选择性关注 |
这里更准确的理解是:认知注意力理论给了 AI 一个“为什么需要选择性处理”的功能解释,而 Transformer 的自注意力则是针对可微训练、并行计算与长程依赖问题给出的工程解。
关键对应:Transformer 的自注意力(self-attention)
Vaswani et al. (2017) 提出的 Transformer 架构中,自注意力机制的核心公式为:
这与认知注意力的对应关系:
- Query(查询):对应"我在找什么"——自上而下的注意力目标
- Key(键):对应"这里有什么"——自下而上的特征信号
- Value(值):对应"找到后提取什么"——被注意到的信息内容
-
缩放因子
$\sqrt{d_k}$ :防止点积过大导致 softmax 饱和,类似认知系统中的注意力调节机制
注意力就像在一张地图上举起手电筒:$Q$ 决定你想要照亮哪个目标,$K$ 提供了可照亮的位置,$V$ 是被照亮后被提取的信息。点积越大、权重越高的位置就越闪亮,而
- 人类注意力是动态的、上下文敏感的,而标准 Transformer 的注意力模式在推理时是固定的
- 人类有抑制机制(inhibition of return),避免反复关注同一位置;AI 注意力缺乏这种机制
- 人类注意力受情绪和动机驱动,AI 注意力纯粹基于统计相关性
工作记忆(working memory)是认知科学中描述短期信息保持与操作的核心概念。它不仅仅是"短期存储",更是一个主动操作信息的工作空间。
关键理论:
-
Miller 的 7±2 法则 (1956)
- 短期记忆的容量约为 7±2 个组块(chunk)
- 组块化(chunking)可以有效扩展容量:将 "F-B-I-C-I-A" 重组为 "FBI-CIA" 只需 2 个组块
- 这一发现暗示:信息的表征方式决定了处理能力
-
Baddeley 的工作记忆模型 (1974/2000)
- 中央执行系统(central executive):注意力控制与任务协调
- 语音环路(phonological loop):处理语言信息
- 视空间画板(visuospatial sketchpad):处理视觉和空间信息
- 情景缓冲区(episodic buffer,2000 年新增):整合多模态信息
-
Cowan 的嵌入过程模型 (1999)
- 工作记忆容量更可能是 4±1 个组块(比 Miller 的估计更保守)
- 工作记忆是长期记忆中被激活部分的子集
- 注意力焦点(focus of attention)进一步限制了同时处理的信息量
| 工作记忆概念 | AI 系统对应 | 说明 |
|---|---|---|
| 容量限制(7±2 / 4±1) | 上下文窗口长度 | GPT-4 的 128K tokens 远超人类,但仍有限制 |
| 组块化 | Token 化与子词编码 | BPE 等算法将字符组块为有意义的 token |
| 中央执行系统 | Transformer 的注意力层 | 协调信息的选择与整合 |
| 语音环路 | 文本序列的位置编码 | 维持序列顺序信息 |
| 情景缓冲区 | 跨模态融合层 | 多模态模型中整合文本、图像等信息 |
| 记忆刷新(rehearsal) | KV Cache | 保持已处理信息的可访问性 |
需要强调的是,LLM 的上下文窗口并不等于人类工作记忆。它更像一个可扩展的、外显的缓存区,而不是带有主动控制、动态组块与长期记忆调用机制的认知系统。
关键洞察:上下文窗口 = 数字化的工作记忆
大语言模型(LLM)的上下文窗口本质上就是一个数字化的工作记忆系统:
- 窗口内的信息可以被"注意到"和操作
- 窗口外的信息不可访问(除非通过 RAG 等机制"回忆")
- 窗口越大,能同时处理的信息越多,但计算成本也越高($O(n^2)$)
- 人类工作记忆具有主动遗忘机制,能自动丢弃不相关信息;LLM 的上下文窗口对所有 token 一视同仁
- 人类通过组块化极大扩展有效容量;LLM 的 token 化是固定的,缺乏动态组块能力
- 人类工作记忆与长期记忆紧密交互;LLM 缺乏真正的长期记忆(参数知识是静态的)
双过程理论(dual-process theory)是当代认知科学最具影响力的框架之一,由 Daniel Kahneman 在《Thinking, Fast and Slow》(2011) 中系统阐述。
两个系统的特征对比:
| 特征 | System 1(快思考) | System 2(慢思考) |
|---|---|---|
| 速度 | 快速、自动 | 缓慢、受控 |
| 努力程度 | 无需努力 | 需要认知努力 |
| 意识参与 | 无意识 | 有意识 |
| 容量 | 大容量、并行 | 有限容量、串行 |
| 典型任务 | 面部识别、母语理解 | 复杂计算、逻辑推理 |
| 错误倾向 | 系统性偏差(bias) | 较少偏差但易疲劳 |
| 进化历史 | 古老、与动物共享 | 较新、人类特有(程度上) |
经典示例——蝙蝠和球问题:
一个蝙蝠和一个球总共花费 1.10 元。蝙蝠比球贵 1.00 元。球多少钱?
- System 1 的直觉回答:0.10 元(错误)
- System 2 的推理回答:0.05 元(正确,因为 1.05 + 0.05 = 1.10)
这个例子完美展示了 System 1 的快速但易错特性,以及 System 2 的缓慢但准确特性。
双过程理论的学术脉络:
- Jonathan Evans (1984):最早提出启发式-分析式(heuristic-analytic)双过程框架
- Keith Stanovich & Richard West (2000):正式命名 System 1 和 System 2
- Daniel Kahneman (2011):将双过程理论推广到大众视野
| 双过程概念 | AI 对应 | 说明 |
|---|---|---|
| System 1 | 标准前向推理(forward pass) | 一次前向传播直接输出答案 |
| System 2 | Chain-of-Thought (CoT) 推理 | 逐步推理,显式展示中间步骤 |
| System 1 的偏差 | LLM 的幻觉(hallucination) | 快速生成但可能不准确 |
| System 2 的监控 | 自我一致性(self-consistency) | 多次采样并投票选择最一致的答案 |
| 两系统的协作 | Tree-of-Thought | 结合快速生成与审慎评估 |
Chain-of-Thought 推理的认知基础:
Wei et al. (2022) 提出的 Chain-of-Thought prompting 本质上是在激活 LLM 的"System 2"模式:
- 不直接输出答案,而是生成中间推理步骤
- 每个步骤都可以被检查和验证
- 在复杂推理任务上显著提升准确率
这与人类的 System 2 推理在功能上相似:当面对困难问题时,我们会"慢下来",在心中(或纸上)列出推理步骤。但这种相似主要是解释层面的,而不是机制同一。
- LLM 的 CoT 是模拟的 System 2,而非真正的受控推理——它仍然是自回归生成
- 人类的 System 2 可以中断和修正 System 1 的输出;LLM 一旦开始生成就难以自我中断
- 人类知道何时需要切换到 System 2(元认知);LLM 需要外部提示(如 "Let's think step by step")
认知架构(cognitive architecture)是试图用统一的计算框架模拟人类完整认知能力的系统。它们不是针对单一任务的模型,而是通用的认知基础设施。
SOAR(State, Operator And Result)——Laird, Newell & Rosenbloom (1987)
SOAR 基于 Newell 的统一认知理论(Unified Theories of Cognition, 1990),核心思想:
- 所有认知行为都可以归结为在问题空间中搜索
- 使用产生式规则(production rules):IF 条件 THEN 动作
- 当遇到僵局(impasse)时,自动创建子目标进行学习
- 通过组块化学习(chunking)将解决方案编译为新的产生式规则
SOAR 的认知循环:
- 感知输入 → 更新工作记忆
- 匹配产生式规则
- 选择并执行操作
- 如遇僵局,创建子目标
- 解决子目标后,学习新规则
ACT-R(Adaptive Control of Thought—Rational)——Anderson (1993/2007)
ACT-R 更强调认知过程的神经基础,核心特点:
- 模块化架构:视觉模块、运动模块、声明性记忆模块、程序性记忆模块等
- 每个模块对应特定的脑区(如声明性记忆对应海马体)
- 激活扩散(spreading activation):记忆项目的可访问性取决于其激活水平
- 理性分析(rational analysis):认知系统在其环境约束下是最优的
| 认知架构概念 | 现代 AI 对应 | 说明 |
|---|---|---|
| 产生式规则 | 专家系统 / 规则引擎 | 早期 AI 的直接实现 |
| 问题空间搜索 | 蒙特卡洛树搜索(MCTS) | AlphaGo 中的搜索策略 |
| 组块化学习 | 课程学习(curriculum learning) | 从简单到复杂逐步学习 |
| 模块化架构 | 混合专家模型(MoE) | 不同模块处理不同类型的输入 |
| 激活扩散 | 注意力权重分布 | 相关信息获得更高激活 |
| 工作记忆缓冲区 | KV Cache / 隐状态 | 临时存储当前处理的信息 |
- 传统认知架构依赖手工编写的规则,缺乏从数据中自动学习的能力
- 现代 LLM 具有强大的学习能力,但缺乏认知架构的结构化推理能力
- 未来的方向可能是神经符号整合(neuro-symbolic integration):结合两者的优势
具身认知是 20 世纪末兴起的认知科学范式转变,挑战了传统的"大脑即计算机"隐喻。
核心主张:
- 认知不仅仅发生在大脑中,而是身体、大脑和环境三者交互的产物
- 抽象概念根植于身体经验:例如"温暖的人"这一隐喻源于身体温度的感受
- 感知和行动不是认知的输入输出,而是认知的组成部分
关键理论与代表人物:
-
Varela, Thompson & Rosch (1991):《The Embodied Mind》
- 提出"生成主义"(enactivism):认知是有机体与环境耦合的动态过程
- 认知不是对外部世界的被动表征,而是主动的意义建构
-
Lakoff & Johnson (1999):《Philosophy in the Flesh》
- 概念隐喻理论:抽象思维建立在身体经验的隐喻之上
- 例如:时间被理解为空间("前方的未来"),数量被理解为高度("价格上升")
-
Andy Clark (1997/2008):《Being There》/《Supersizing the Mind》
- 延展心智(extended mind)假说:认知过程可以延伸到身体之外的工具和环境
- 笔记本、计算器、智能手机都可以是认知系统的一部分
-
Rodney Brooks (1991):《Intelligence without Representation》
- 从机器人学角度论证:智能行为不需要内部表征,可以从感知-行动的直接耦合中涌现
- 提出包容架构(subsumption architecture)
- 机器人学:具身 AI(embodied AI)强调智能体必须在物理环境中通过交互来学习
- 多模态模型:GPT-4V、Gemini 等模型整合视觉和语言,部分实现了多感官整合
- 世界模型:Yann LeCun 提出的 JEPA(Joint Embedding Predictive Architecture)试图让 AI 建立对物理世界的内部模型
- 强化学习:智能体通过与环境的交互学习,体现了具身认知的"行动中认知"理念
- 当前大多数 AI 系统仍然是离身的(disembodied):纯粹处理符号和数据
- 即使是多模态模型,也只是处理感官数据的记录,而非真正的感官体验
- 具身 AI 面临仿真与现实的差距(sim-to-real gap):在模拟环境中学到的技能难以迁移到真实世界
认知科学对 AI 的贡献,更多体现在任务分解、能力框架、评估标准与解释语言。下面各项应优先理解为启发、类比或功能参照,而不是从认知理论直接推导出的工程实现。
注意力机制的认知起源
从 Broadbent (1958) 的过滤器模型到 Bahdanau et al. (2014) 的神经注意力机制,认知科学提供了一条清晰的概念传承线:
Broadbent 过滤器 (1958)
→ Treisman 衰减模型 (1964)
→ Posner 注意力网络 (1990)
→ Bahdanau 加性注意力 (2014)
→ Vaswani 自注意力 / Transformer (2017)
每一步都保留了核心认知洞察:有限的处理资源必须被选择性地分配。但具体的矩阵计算形式、训练目标与扩展策略,仍主要来自机器学习与系统工程。
记忆系统的层次结构
认知科学中的多层记忆系统(感觉记忆 → 短期/工作记忆 → 长期记忆)为 AI 提供了分层组织信息的参考框架:
| 认知记忆层次 | AI 对应 | 特征 |
|---|---|---|
| 感觉记忆(~250ms) | 输入嵌入层 | 原始输入的短暂表征 |
| 工作记忆(秒级) | 上下文窗口 / KV Cache | 当前任务的活跃信息 |
| 长期记忆(永久) | 模型参数 / 外部知识库 | 训练中积累的知识 |
| 情景记忆 | RAG / 对话历史 | 特定事件的记录 |
| 语义记忆 | 预训练知识 | 一般性世界知识 |
强化学习与行为主义的遗产
虽然认知科学反对行为主义的极端立场,但行为主义的核心洞察——通过奖惩信号学习——被保留在强化学习(reinforcement learning)中:
- Thorndike 的效果律(Law of Effect, 1898)→ 奖励信号
- Skinner 的操作性条件反射 → 策略梯度方法
- 认知科学的贡献是加入了内部表征:不仅学习刺激-反应映射,还学习环境的内部模型
类比推理与少样本学习
认知科学中的类比推理理论(Gentner, 1983; Holyoak & Thagard, 1995)启发了 AI 的少样本学习:
- 人类通过结构映射(structure mapping)在不同领域间迁移知识
- GPT 系列的 in-context learning 可以在某些任务上视为一种隐式的类比推理现象
- 元学习(meta-learning)的"学会学习"理念直接来自认知科学
认知科学为 AI 提供了评价智能的框架:
- 图灵测试(Turing, 1950):行为层面的智能判断标准
- Winograd Schema Challenge(Levesque, 2012):测试常识推理能力
- 认知偏差测试:用 Kahneman 的认知偏差范式测试 LLM 是否表现出类似人类的偏差
- 心智理论测试(Theory of Mind):测试 AI 是否能理解他人的信念和意图
- 元认知评估:测试 AI 是否"知道自己不知道什么"(calibration)
认知科学帮助我们理解 AI 系统的认知局限:
- AI 的"幻觉"可与人类的虚构记忆(confabulation)作功能类比
- AI 的偏见可与人类的认知偏差作比较,但其形成机制和放大方式并不相同
- 理解人类认知的脆弱性,有助于设计更安全的 AI 系统
意识(consciousness)是认知科学中最深刻也最具争议的问题。随着 LLM 表现出越来越"像人"的行为,这个问题变得尤为紧迫:
- 困难问题(Hard Problem)——David Chalmers (1995):为什么物理过程会产生主观体验(qualia)?即使 AI 完美模拟了人类行为,它是否有"内在体验"?
- 全局工作空间理论(Global Workspace Theory)——Bernard Baars (1988):意识是信息在全局工作空间中广播的结果。Transformer 的注意力机制是否构成了某种"全局工作空间"?
- 整合信息理论(Integrated Information Theory, IIT)——Giulio Tononi (2004):意识的程度可以用 Φ(phi)值量化,即系统整合信息的能力。当前 AI 系统的 Φ 值如何?
人类拥有大量隐性的常识知识(commonsense knowledge),这些知识很少被明确表述,但对理解世界至关重要:
- 物理直觉:物体会下落、液体会流动
- 社会常识:人们通常不会在葬礼上大笑
- 因果推理:打碎的杯子不会自动复原
LLM 通过大规模训练获得了部分常识,但仍然在许多基本常识推理任务上犯错。认知科学的核心知识理论(core knowledge theory, Spelke & Kinzler, 2007)认为人类天生具有关于物体、数量、空间、社会等领域的核心知识,这些知识可能需要被显式地编码到 AI 系统中。
元认知(metacognition)是"关于认知的认知"——知道自己知道什么、不知道什么:
- 置信度校准(calibration):人类(尤其是专家)通常能较好地估计自己答案的正确概率。LLM 的置信度校准仍然是一个活跃的研究领域。
- 知识边界意识:人类知道自己的知识边界("我不懂量子物理")。让 AI 可靠地说"我不知道"仍然是一个挑战。
- 学习策略选择:人类会根据任务难度选择不同的学习策略。AI 系统能否自动选择最优的推理策略?
人类认知本质上是社会性的——我们通过与他人的交互来学习和推理:
- 心智理论(Theory of Mind):理解他人的信念、意图和情感。多智能体系统中的智能体是否需要心智理论?
- 共同注意力(Joint Attention):两个人同时关注同一个对象。人机交互中的共同注意力如何实现?
- 文化学习(Cultural Learning):通过模仿和教学传递知识。AI 能否从人类的文化实践中学习?
人类的认知能力是逐步发展的(Piaget 的认知发展阶段理论):
- 感知运动阶段(0-2 岁)→ 前运算阶段(2-7 岁)→ 具体运算阶段(7-11 岁)→ 形式运算阶段(11 岁以上)
- AI 能否模拟这种渐进式的能力获取?
- 持续学习(continual learning)如何避免灾难性遗忘(catastrophic forgetting)?
- 认知发展中的关键期(critical period)是否对 AI 训练有启示?
- Miller, G. A. (1956). The magical number seven, plus or minus two: Some limits on our capacity for processing information. Psychological Review, 63(2), 81-97.
- Broadbent, D. E. (1958). Perception and Communication. Pergamon Press.
- Newell, A., & Simon, H. A. (1972). Human Problem Solving. Prentice-Hall.
- Marr, D. (1982). Vision: A Computational Investigation. W.H. Freeman.
- Rumelhart, D. E., McClelland, J. L., & PDP Research Group. (1986). Parallel Distributed Processing. MIT Press.
- Varela, F. J., Thompson, E., & Rosch, E. (1991). The Embodied Mind. MIT Press.
- Anderson, J. R. (2007). How Can the Human Mind Occur in the Physical Universe? Oxford University Press.
- Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
- Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv:1409.0473.
- Vaswani, A., et al. (2017). Attention is all you need. NeurIPS.
- Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.
- Kosinski, M. (2023). Theory of mind may have spontaneously emerged in large language models. arXiv:2302.02083.
- Bubeck, S., et al. (2023). Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv:2303.12712.
- Bermúdez, J. L. (2020). Cognitive Science: An Introduction to the Science of the Mind (3rd ed.). Cambridge University Press.
- Thagard, P. (2005). Mind: Introduction to Cognitive Science (2nd ed.). MIT Press.
- Lake, B. M., Ullman, T. D., Tenenbaum, J. B., & Gershman, S. J. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40.
- Spelke, E. S., & Kinzler, K. D. (2007). Core knowledge. Developmental Science, 10(1), 89-96.
- MIT OpenCourseWare: Introduction to Cognitive Science (9.00)
- Stanford Encyclopedia of Philosophy: Cognitive Science 词条
- Cognitive Science Society: https://cognitivesciencesociety.org/
本篇介绍了认知科学对 AI/AGI 发展的核心贡献:为 AI 系统提供了功能层面的参考框架,从注意力机制到工作记忆、从推理决策到语言理解。
与相邻篇章的关系:
- 与[[16-neuroscience|神经科学]]形成互补:神经科学关注生物实现机制,认知科学关注功能层面的计算原理
- 与[[18-psychology|心理学]]共同研究人类行为与心智:心理学侧重实验方法,认知科学侧重计算建模
- 与[[19-linguistics|语言学]]在语言处理上紧密相关:认知科学提供语言理解的认知框架
- 为[[25-philosophy|哲学]]提供实证基础:认知科学的实验发现为心灵哲学提供经验支持
贡献边界: 认知科学主要提供了人类智能的功能描述和设计目标,但并不直接提供工程实现方案。沿着 Marr (1982)、Anderson (2007) 与 Lake et al. (2017) 这条方法论脉络来看,认知科学告诉我们"人类如何思考",却不能直接告诉我们"如何构建可扩展的 AI 系统"。例如,工作记忆、注意力瓶颈和双过程理论都能帮助我们组织问题,但并不能单独决定 Transformer、RAG、工具调用或多智能体系统该怎样训练与部署。此外,认知科学研究的是人类认知,而 AI 也可能发展出超出人类工作记忆规模、反应速度与多任务能力的非人类路径。因此,它更像一套高价值参考系,而不是唯一设计规范。
总结:认知科学为 AI 提供了三重价值——灵感来源(注意力、记忆、推理的计算模型)、评价标准(什么是真正的智能)、警示框架(人类认知的局限也可能是 AI 的局限)(Marr, 1982;Lake et al., 2017)。在通往 AGI 的道路上,它不是唯一蓝图,但始终是高价值的参考系。