Skip to content

Latest commit

 

History

History
512 lines (334 loc) · 29 KB

File metadata and controls

512 lines (334 loc) · 29 KB
title 心理学
aliases
Psychology
category
认知、生物与语言
tags
ai-foundations
cognition
psychology
type topic
status stable
importance important
version v2.0
date 2026-04-08

心理学(Psychology):从起源到 AI 的完整脉络

上帝视角:心理学并不是现代 AI 算法的唯一技术来源,但它为 AI 提供了大量关于行为形成、偏好比较、风险判断与人机反馈的实验原型(Thorndike, 1898;Bandura, 1977;Kahneman & Tversky, 1979)。本文重点聚焦行为与决策心理学如何进入强化学习、偏好建模、认知偏差评测与交互系统,而不是试图覆盖整个心理学版图。


相关主题

  • [[16-neuroscience|神经科学]]:神经科学解释奖励与记忆的生物机制,心理学更多研究可观察的行为规律
  • [[17-cognitive-science|认知科学]]:认知科学强调统一的功能建模,心理学更强调实验范式与行为结果
  • [[19-linguistics|语言学]]:偏好、礼貌与框架效应会直接影响对话系统的表达与评测
  • [[23-economics|经济学]]:行为经济学把许多心理偏差形式化为可用于对齐与偏好聚合的问题
  • [[13-cybernetics|控制论]]:控制论提供反馈系统形式化,心理学提供反馈如何塑造行为的实验原型

1. 上帝视角:为什么 AI 需要心理学

心理学为 AI 提供了智能行为的实验原型与行为约束。在当前 25 学科结构中:

  • 心理学(18):侧重于行为的心理学基础、认知偏差的实验观察产生机制
  • 认知科学(17):侧重于心理过程的计算建模(如计算认知)。
  • 经济学(23):侧重于将心理偏差形式化为效用函数,用于处理偏好学习与 AI 对齐。

人工智能的核心问题之一是:智能体如何在未知环境中通过试错学会有效行为,并在与人类互动时对反馈做出合适响应? 这个问题在心理学中已经被研究了超过一个世纪。

1.1 强化学习的概念来源

强化学习(Reinforcement Learning, RL)并非凭空诞生于计算机科学。它的许多核心概念都能在行为心理学中找到历史原型:

  • 奖励信号(reward signal)← Thorndike 的效果律(Law of Effect, 1898)
  • 策略(policy)← Skinner 的操作性条件反射(operant conditioning)
  • 探索与利用(exploration vs. exploitation)← 好奇心驱动 vs. 习惯化行为
  • 延迟奖励(delayed reward)← 延迟满足实验(Mischel, 1972)
  • 奖励塑形(reward shaping)← 行为塑造(shaping, Skinner 1953)
  • 模仿学习(imitation learning)← 社会学习理论(Bandura, 1977)

但这里需要区分三种关系:

  • 历史原型:例如效果律、条件反射、行为塑造,为 RL 的问题意识提供先验模板
  • 概念启发:例如探索-利用、新奇偏好、偏好比较,帮助设计奖励与反馈机制
  • 严格方法来源:MDP、动态规划、策略梯度、PPO 等现代形式化主要来自运筹学、控制论与计算机科学,而不是直接从心理学理论推导

1.2 与其他学科的关键连接点

学科 连接点 具体对应
神经科学 多巴胺奖励系统 TD 误差 ≈ 多巴胺神经元的放电模式(Schultz, 1997)
认知科学 双过程理论 System 1(快速/习惯)≈ 模型无关 RL;System 2(慢速/推理)≈ 模型基础 RL
经济学 (22) 行为经济学、偏好偏差 RLHF 中的非理性偏好修正
运筹学 最优决策序列 动态规划 ≈ 行为链(behavioral chaining)
博弈论 多智能体交互 社会学习 ≈ 多智能体 RL 中的对手建模
统计学 贝叶斯推断 信念更新 ≈ Thompson 采样中的后验更新
控制论 反馈回路 负反馈控制 ≈ 奖惩信号调节行为

2. 历史脉络

心理学对 AI 的影响可以沿着一条清晰的时间线追溯:

2.1 前科学时期

  • Descartes (1637):提出动物是"自动机"(automata),行为可以用机械原理解释。这一思想为行为主义的"刺激-反应"框架埋下伏笔。
  • British Empiricists (17-18 世纪):Locke、Hume 等人的联想主义(associationism)——观念通过经验中的共现而关联——直接启发了后来的条件反射理论。

2.2 实验心理学的诞生

  • Wundt (1879):在莱比锡建立第一个心理学实验室,心理学成为独立的实验科学。
  • Ebbinghaus (1885):记忆的遗忘曲线(forgetting curve)。这一发现后来启发了经验回放(experience replay)中的优先级采样。

2.3 行为主义的黄金时代

  • Pavlov (1897):经典条件反射(classical conditioning)。狗听到铃声后分泌唾液——刺激之间的关联学习。
  • Thorndike (1898):效果律(Law of Effect)。猫在迷箱中的试错学习——产生满意结果的行为会被强化。这可视为强化学习的重要心理学原型之一。
  • Watson (1913):发表《行为主义者眼中的心理学》,宣告行为主义学派正式成立。
  • Skinner (1938):操作性条件反射(operant conditioning)。《有机体的行为》出版,系统化了强化(reinforcement)、惩罚(punishment)、消退(extinction)等概念。
  • Hull (1943):驱力递减理论(drive reduction theory),试图用数学公式描述学习过程:$sEr = sHr \times D \times K$
  • Skinner (1953):行为塑造(shaping)——通过逐步强化接近目标的行为来训练复杂行为。这就是奖励塑形(reward shaping)的心理学原型。

2.4 认知革命与决策理论

  • Chomsky (1959):对 Skinner 的《言语行为》的著名批评,标志着认知革命的开始。
  • Bandura (1977):社会学习理论(social learning theory)——人可以通过观察他人来学习,不需要亲身试错。这是模仿学习(imitation learning)的理论基础。
  • Kahneman & Tversky (1979):前景理论(prospect theory)——人类决策中的系统性偏差。价值函数的 S 形曲线、损失厌恶、概率加权等发现深刻影响了 AI 中的奖励函数设计。
  • Mischel (1972):延迟满足实验(marshmallow test)——自控力与延迟奖励的关系,对应 RL 中的折扣因子 $\gamma$

2.5 计算心理学与 AI 的融合

  • Rescorla & Wagner (1972):提出 Rescorla-Wagner 模型,用数学公式描述条件反射中的学习:$\Delta V = \alpha \beta (\lambda - V)$。这个公式与 TD 学习的更新规则惊人地相似。
  • Sutton & Barto (1981):明确将心理学的试错学习与计算机科学的强化学习联系起来。
  • Schultz, Dayan & Montague (1997):发现多巴胺神经元的放电模式与 TD 误差高度吻合,建立了心理学、神经科学与 RL 的三角关系。
  • Christiano et al. (2017):RLHF(Reinforcement Learning from Human Feedback)——用人类偏好作为奖励信号训练 AI,可理解为把人类偏好判断近似转化为奖励模型。

3. 核心知识点详解

3.1 经典条件反射(Classical Conditioning, Pavlov)

心理学机制

Pavlov 在研究狗的消化系统时偶然发现:如果在喂食前反复播放铃声,狗最终会在仅听到铃声时就分泌唾液。这揭示了一种基本的学习机制——刺激之间的关联学习

核心要素:

  • 无条件刺激(Unconditioned Stimulus, US):食物——天然引发反应
  • 无条件反应(Unconditioned Response, UR):看到食物分泌唾液
  • 条件刺激(Conditioned Stimulus, CS):铃声——原本中性
  • 条件反应(Conditioned Response, CR):听到铃声分泌唾液

关键现象:

  • 习得(acquisition):CS-US 配对重复后,CR 逐渐增强
  • 消退(extinction):停止配对后,CR 逐渐减弱
  • 自发恢复(spontaneous recovery):消退后休息一段时间,CR 部分恢复
  • 泛化(generalization):对类似刺激也产生 CR
  • 辨别(discrimination):学会区分不同刺激

数学化表述:Rescorla-Wagner 模型(1972)

$$\Delta V_{CS} = \alpha_{CS} \cdot \beta_{US} \cdot (\lambda_{US} - V_{total})$$

其中:

  • $V_{CS}$:条件刺激的关联强度(associative strength)
  • α:条件刺激的显著性(salience),取值在 0 到 1 之间
  • β:无条件刺激的学习率,取值在 0 到 1 之间
  • $\lambda_{US}$:无条件刺激能支持的最大关联强度
  • $V_{total}$:所有当前呈现的 CS 的关联强度之和

这个模型的核心洞察是:学习由预测误差驱动。当 $V_{total} < \lambda$ 时,存在正的预测误差,关联增强;当 $V_{total} = \lambda$ 时,学习停止;当 $V_{total} > \lambda$ 时,关联减弱。

直觉理解

Rescorla-Wagner 模型揭示了一个简单的"错误纠正"循环:每次出现 CS-US 配对时,系统会估算当前的期望($V_{total}$)与最大可达关联($\lambda$)之间的差异,正负预测误差分别推动关联增强或减弱。这就是 TD 误差的心理原型——信息传播只需要当前的残差信号,而无须完整模型。

AI 中的角色

Rescorla-Wagner 模型与 TD 学习(Temporal Difference Learning)共享结构:

$$V(s) \leftarrow V(s) + \alpha \cdot [r + \gamma V(s') - V(s)]$$

其中 $\delta = r + \gamma V(s') - V(s)$ 就是 TD 误差,对应 Rescorla-Wagner 模型中的 $(\lambda - V_{total})$。两者都是误差驱动的增量学习,是强化学习智能体估计未来价值的基本过程。


3.2 操作性条件反射(Operant Conditioning, Skinner)

心理学机制

与经典条件反射不同,操作性条件反射关注的是行为的后果如何影响行为的频率。Skinner 将后果分为四类:

施加刺激 移除刺激
增加行为频率 正强化(positive reinforcement) 负强化(negative reinforcement)
减少行为频率 正惩罚(positive punishment) 负惩罚(negative punishment)

强化程序(schedules of reinforcement):

  • 连续强化(continuous reinforcement):每次正确行为都强化
  • 固定比率(fixed ratio):每 N 次正确行为强化一次
  • 可变比率(variable ratio):平均每 N 次强化,但具体次数随机——这是最抗消退的程序(赌博机的原理)
  • 固定间隔(fixed interval):每隔固定时间强化一次
  • 可变间隔(variable interval):平均间隔固定,但具体时间随机

数学化表述

操作性条件反射可以形式化为马尔可夫决策过程(MDP):

$$\text{MDP} = (S, A, P, R, \gamma)$$

其中 $S$ 是状态空间,$A$ 是动作空间,$P(s'|s,a)$ 是状态转移概率,$R(s,a,s')$ 是奖励函数,$\gamma$ 是折扣因子(代表对未来奖励的衰减程度)。

策略 π(a|s) 对应有机体在特定状态下选择特定行为的概率。最优策略 π* 最大化累积奖励:

$$\pi^* = \arg\max_\pi \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R_t \mid \pi\right]$$

直觉理解

操作性条件反射的数学表述可以看作在不断估计哪种行为能带来最大累积奖励。奖励函数 R 就像判断某个行为是否"令人满意"的信号,γ 控制对远期奖励的重视程度,最优策略则是对所有行为路径的比较与取舍。

AI 中的角色

  • 正强化 → RL 中的正奖励信号
  • 惩罚 → RL 中的负奖励信号
  • 强化程序 → 奖励的稀疏性与频率设计
  • 可变比率程序的抗消退性 → 稀疏奖励下的鲁棒学习

3.3 效果律(Law of Effect, Thorndike)

心理学机制

Thorndike 在 1898 年的博士论文中描述了猫在迷箱(puzzle box)中的行为:猫被关在箱子里,需要按下杠杆才能打开门获得食物。最初猫的行为是随机的(抓、咬、推),但随着试验次数增加,猫越来越快地找到正确动作。

效果律的核心表述:

"在相同情境下,产生满意效果的反应将更可能在该情境再次出现时重复;产生不适效果的反应将更不可能重复。"

这是试错学习(trial-and-error learning)的经典描述,也可视为强化学习的重要心理学前身。

数学化表述

效果律可以用动作价值函数(action-value function)来形式化:

$$Q(s, a) \leftarrow Q(s, a) + \alpha \cdot [r - Q(s, a)]$$

其中:

  • Q(s, a):在状态 s 下执行动作 a 的预期价值
  • $r$:实际获得的奖励("满意效果"或"不适效果")
  • $\alpha$:学习率(对应试验次数增加后学习速度的变化)

"满意效果" → $r > Q(s,a)$ → 价值增加 → 行为更可能重复 "不适效果" → $r < Q(s,a)$ → 价值减少 → 行为更不可能重复

直觉理解

效果律体现的是一个简单的反馈循环:每个动作都有一个预期价值 $Q(s,a)$,实际奖励 $r$ 与预期之间的差异会即时修正这个价值。满意的结果提升该动作的期望,失败则降低,这正是智能体策略迭代中的值函数更新逻辑。

AI 中的角色

  • 迷箱实验 → RL 智能体在环境中的试错
  • 逃脱时间随试验减少 → 学习曲线(learning curve)
  • 效果律 → Q-Learning 的更新规则(Watkins, 1989)
  • 情境(situation)→ 状态(state)
  • 反应(response)→ 动作(action)
  • 满意效果(satisfying effect)→ 正奖励(positive reward)

3.4 探索-利用权衡(Exploration-Exploitation Tradeoff)

心理学机制

每个有机体都面临一个基本困境:

  • 利用(exploitation):重复已知能带来奖励的行为(习惯)
  • 探索(exploration):尝试新行为,可能发现更好的选择(好奇心)

心理学中的相关现象:

  • 好奇心(curiosity):内在动机驱动的探索行为。Berlyne (1960) 区分了"特定好奇心"(directed curiosity)和"多样性好奇心"(diversive curiosity)。
  • 习惯化(habituation):对重复刺激的反应减弱,促使有机体探索新刺激。
  • 新奇偏好(novelty preference):婴儿和动物都表现出对新奇刺激的偏好。
  • 风险偏好(risk preference):个体在确定性收益和不确定性收益之间的选择倾向。

数学化表述

三种经典的探索策略:

$\epsilon$-贪心($\epsilon$-greedy):以概率 $1-\epsilon$ 选择当前最优动作,以概率 $\epsilon$ 随机探索。

$$a_t = \begin{cases} \arg\max_a Q(a) & \text{概率 } 1-\epsilon \ \text{随机动作} & \text{概率 } \epsilon \end{cases}$$

其中 $Q(a)$ 表示动作 $a$ 的当前预期价值,$\epsilon$ 控制随机探索与利用之间的权衡。

UCB(Upper Confidence Bound):选择置信上界最大的动作,平衡估计值与不确定性。

$$a_t = \arg\max_a \left[ Q(a) + c \sqrt{\frac{\ln t}{N(a)}} \right]$$

其中 $c$ 表示探索偏置的强度,$t$ 代表当前时间步,$N(a)$ 是动作 $a$ 的尝试次数,置信上界项鼓励对尝试次数较少的动作进行探索。

Thompson 采样:为每个动作维护一个概率分布,从分布中采样来选择动作。

$$\theta_a \sim \text{Beta}(\alpha_a, \beta_a), \quad a_t = \arg\max_a \theta_a$$

其中 $\theta_a$ 是动作 $a$ 的后验性能样本,$\alpha_a, \beta_a$ 控制 Beta 分布的形状,代表模型对该动作的乐观度与保守度。

直觉理解

探索-利用的冲突可以看作一个两阶段的循环:习惯靠稳定的 $Q(a)$ 获得确定回报,而好奇心靠随机采样($\epsilon$-贪心、UCB、Thompson)来制造信息增益。心理学中的新奇偏好和习惯化正是这种拉锯的行为体现——新奇刺激推动探索,重复刺激促使习惯固化。

AI 中的角色

  • 好奇心 → 内在动机(intrinsic motivation)/ 好奇心驱动的探索(Pathak et al., 2017)
  • 习惯化 → 计数型探索奖励(count-based exploration bonus)
  • 风险偏好 → 分布式 RL(distributional RL)中的风险敏感策略

3.5 奖励塑形(Reward Shaping)

心理学机制

Skinner (1953) 描述了行为塑造(shaping)技术:要训练鸽子转圈,不能等它自发转完整圈才给奖励(这可能永远不会发生),而是先强化任何向右转头的动作,然后强化转更大角度的动作,逐步逼近目标行为。

关键原则:

  • 逐次逼近(successive approximation):将复杂行为分解为一系列中间步骤
  • 差异强化(differential reinforcement):只强化比当前更接近目标的行为
  • 即时反馈:每个中间步骤都给予反馈,而非只在最终目标达成时

数学化表述

Ng et al. (1999) 将奖励塑形形式化。给定原始奖励函数 $R$,添加基于势函数(potential function)$\Phi$ 的塑形奖励:

$$R'(s, a, s') = R(s, a, s') + \gamma \Phi(s') - \Phi(s)$$

其中 $R(s, a, s')$ 是原始奖励,$\Phi$ 是状态势函数,$\gamma$ 是折扣因子,势函数差带来的奖励不会改变长期价值判断。

关键定理:如果塑形奖励基于势函数,则最优策略不变(policy invariance)。即:

$$\pi^__{R'} = \pi^__R$$

其中 π* 表示在塑形奖励下的最优策略与原始奖励下的最优策略相同,等式说明塑形不会改变策略。

这保证了奖励塑形只加速学习,不改变最终学到的策略。

直觉理解

奖励塑形相当于在状态之间附加一个势能梯度:只要势函数是路径独立的,塑形奖励会在每一步给予更细粒度的反馈,同时保留对最终目标路径的判断。

AI 中的角色

  • 行为塑造 → 课程学习(curriculum learning, Bengio et al., 2009)
  • 逐次逼近 → 从简单任务到复杂任务的渐进训练
  • 中间奖励 → 稠密奖励(dense reward)设计
  • 稀疏奖励问题 → RL 中的核心挑战之一

3.6 RLHF 的心理学根基

心理学机制

RLHF(Reinforcement Learning from Human Feedback)的核心思想是:用人类的偏好判断作为奖励信号来训练 AI。这一思想深深植根于多个心理学传统:

  1. 社会学习理论(Bandura, 1977):人类不仅通过自身试错学习,还通过观察他人的行为及其后果来学习。RLHF 中的人类评估者扮演了"示范者"的角色。

  2. 偏好学习(preference learning):心理学研究表明,人类更擅长做相对比较("A 比 B 好")而非绝对评分("A 得 7.3 分")。RLHF 正是利用了这一点,让人类比较两个回答的优劣。

  3. 前景理论(Kahneman & Tversky, 1979):人类的偏好并非理性的效用最大化,而是受到框架效应、损失厌恶、锚定效应等认知偏差的影响。这意味着 RLHF 训练出的模型也会继承人类的偏差。

  4. 规范性 vs. 描述性:心理学区分了人类"应该"如何决策(规范性理论)和人类"实际"如何决策(描述性理论)。RLHF 学到的是描述性的人类偏好,而非规范性的最优行为。

数学化表述

RLHF 的标准流程:

第一步:训练奖励模型

给定人类偏好数据(包含 prompt x、偏好回答 y_w 和不偏好回答 y_l),训练奖励模型:

$$\mathcal{L}(\phi) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma(r_\phi(x, y_w) - r_\phi(x, y_l)) \right]$$

这里使用了 Bradley-Terry 模型,源自心理物理学中的配对比较方法。

其中:

  • $\phi$ 是奖励模型参数
  • $\mathcal{D}$ 是人类偏好数据集
  • $x$ 是输入提示,$y_w$ / $y_l$ 分别是偏好回答与不偏好回答
  • $r_\phi(x, y)$ 表示奖励模型对回答的打分,$\sigma$ 是 sigmoid 函数

第二步:用 PPO 优化策略

$$\max_\theta \mathbb{E}_{x \sim \mathcal{D}, y \sim \pi_\theta(\cdot|x)} \left[ r_\phi(x, y) - \beta \cdot \text{KL}(\pi_\theta | \pi_{\text{ref}}) \right]$$

其中:

  • $\theta$ 是待优化策略参数
  • $\pi_\theta$ 是当前策略,$\pi_{\text{ref}}$ 是参考策略
  • $\beta$ 控制奖励收益与偏离参考模型之间的权衡

KL 散度惩罚项防止策略偏离参考模型太远。这一步主要属于现代优化与稳定训练的工程做法;若与心理学相比,最多只能说它和“保守更新”的行为倾向存在松散类比。

直觉理解

RLHF 的心理学基础在于:人类更擅长比较“哪个回答更好”,而不擅长直接写出一个完美奖励函数。系统先学习这种比较偏好,再把它转成可优化的奖励信号。

AI 中的角色

  • 人类偏好比较 → Bradley-Terry 配对比较模型
  • 社会学习 → 从人类示范中学习(learning from demonstrations)
  • 认知偏差 → RLHF 模型中的对齐税(alignment tax)
  • 规范性 vs. 描述性 → AI 安全中的价值对齐问题

4. 对 AI 的核心贡献

心理学对 AI 的贡献主要体现在:为序贯决策提供行为原型、为人类反馈建模提供实验传统、为偏差与风险提供评测框架(Thorndike, 1898;Bandura, 1977;Kahneman & Tversky, 1979)。下面各项应优先理解为“问题来源与实验参照”,而不是现代算法的唯一技术来源。

4.1 强化学习的行为原型

心理学为 RL 提供了完整的行为问题框架:

心理学概念 提出者 年份 RL 对应 数学形式
效果律 Thorndike 1898 Q-Learning 更新 $Q \leftarrow Q + \alpha(r - Q)$
经典条件反射 Pavlov 1897 TD 学习 $V \leftarrow V + \alpha(r + \gamma V' - V)$
操作性条件反射 Skinner 1938 MDP 框架 $(S, A, P, R, \gamma)$
行为塑造 Skinner 1953 奖励塑形 $R' = R + \gamma\Phi(s') - \Phi(s)$
社会学习 Bandura 1977 模仿学习 $\pi \leftarrow \arg\min_\pi D(\pi, \pi_E)$
前景理论 Kahneman 1979 风险敏感 RL 分布式价值函数

这张表最适合被理解为“行为概念如何进入算法语言”。真正把这些思想变成可证明、可训练的系统,依赖的还是后来的数理形式化。

4.2 内在动机与探索机制

心理学中的内在动机理论(Deci & Ryan, 1985)启发了 AI 中的好奇心驱动探索:

  • 能力需求(competence)→ 预测误差作为内在奖励(Schmidhuber, 1991)
  • 自主需求(autonomy)→ 选项框架(options framework, Sutton et al., 1999)
  • 关系需求(relatedness)→ 多智能体社会学习

具体实现:

  • ICM(Intrinsic Curiosity Module, Pathak et al., 2017):用预测误差作为内在奖励
  • RND(Random Network Distillation, Burda et al., 2018):用随机网络的预测误差衡量新奇性
  • Go-Explore(Ecoffet et al., 2019):先探索再利用的两阶段策略

4.3 偏好建模、人机交互与反馈学习

除了 RL 主线,心理学还深刻影响了现代 AI 与人的接口层:

  • 偏好比较范式:配对比较、Likert 量表、排序实验等方法,为 RLHF、DPO 与人类评测协议提供数据采集思路
  • 人机交互(HCI):认知负荷、注意力分配、默认选项效应影响着 AI 产品的交互设计与可用性测试
  • 说服与顺从研究:帮助分析模型如何影响用户判断,也提醒我们规避诱导式界面与操控性反馈
  • 信任校准:心理学中的信任、依赖与自动化偏误研究,可用于设计“模型什么时候应当解释、拒答或请求确认”

4.4 认知偏差与 AI 安全

心理学揭示的认知偏差对 AI 安全有重要启示:

  • 确认偏差(confirmation bias)→ 模型或评估者可能过度依赖早期样本与已有假设
  • 可得性偏差(availability bias)→ 数据分布与回放采样方式会放大高频但不代表性的经验
  • 锚定效应(anchoring effect)→ 初始答案、初始提示与初始参数会影响后续修正轨迹
  • 框架效应(framing effect)→ 提问方式、奖励表述与界面措辞会改变模型和用户的行为结果
  • 损失厌恶(loss aversion)→ 风险敏感训练与安全约束设计可借鉴其不对称代价视角

5. 前沿与开放问题

5.1 当前研究热点

  1. RLHF 的局限性:人类偏好的不一致性、标注者之间的分歧、偏好的不可传递性(A > B, B > C, 但 C > A)。
  2. Constitutional AI(Bai et al., 2022):用 AI 自身的判断替代部分人类反馈,减少对人类标注的依赖。
  3. DPO(Direct Preference Optimization, Rafailov et al., 2023):绕过显式奖励模型,直接从偏好数据优化策略。
  4. 多模态 RLHF:将人类偏好扩展到图像、视频、音频等模态。

5.2 开放问题

  1. 奖励黑客(reward hacking):智能体找到最大化奖励但违背设计意图的捷径。心理学中的"教学效应"(teaching to the test)是类似现象。
  2. 价值对齐(value alignment):如何确保 AI 的目标与人类价值观一致?心理学中的道德发展理论(Kohlberg, 1958)提供了思考框架。
  3. 可解释的奖励:如何设计人类可理解的奖励函数?心理学中的归因理论(attribution theory)可能有启发。
  4. 长期偏好 vs. 短期偏好:人类的即时偏好和深思熟虑后的偏好可能不同。RL 中的折扣因子 $\gamma$ 只是一个粗糙的近似。
  5. 群体偏好聚合:不同人的偏好如何聚合?Arrow 不可能定理(1951)表明不存在完美的聚合方法。

5.3 未来方向

  • 发展心理学启发的 AI:像儿童一样从简单到复杂逐步学习(课程学习的深化)
  • 情感计算:将情绪作为内在奖励信号(Picard, 1997)
  • 元认知:AI 能否像人类一样"思考自己的思考过程"?
  • 文化学习:超越个体学习,实现知识的代际传递

6. 推荐阅读与参考文献

经典文献

  • Thorndike, E. L. (1898). Animal intelligence: An experimental study of the associative processes in animals. Psychological Review Monograph Supplements, 2(4).
  • Pavlov, I. P. (1927). Conditioned Reflexes: An Investigation of the Physiological Activity of the Cerebral Cortex. Oxford University Press.
  • Skinner, B. F. (1938). The Behavior of Organisms: An Experimental Analysis. Appleton-Century.
  • Bandura, A. (1977). Social Learning Theory. Prentice Hall.
  • Kahneman, D. & Tversky, A. (1979). Prospect theory: An analysis of decision under risk. Econometrica, 47(2), 263-291.

桥梁文献(心理学 → AI)

  • Rescorla, R. A. & Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effectiveness of reinforcement and nonreinforcement. In Classical Conditioning II, 64-99.
  • Sutton, R. S. & Barto, A. G. (1981). Toward a modern theory of adaptive networks: Expectation and prediction. Psychological Review, 88(2), 135-170.
  • Schultz, W., Dayan, P. & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275(5306), 1593-1599.
  • Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.

AI 前沿文献

  • Ng, A. Y., Harada, D. & Russell, S. (1999). Policy invariance under reward transformations: Theory and application to reward shaping. ICML.
  • Pathak, D. et al. (2017). Curiosity-driven exploration by self-supervised prediction. ICML.
  • Christiano, P. F. et al. (2017). Deep reinforcement learning from human preferences. NeurIPS.
  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073.
  • Rafailov, R. et al. (2023). Direct preference optimization: Your language model is secretly a reward model. NeurIPS.

推荐教材

  • Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction. — RL 的圣经,第一章详细讨论了心理学根源
  • Kahneman, D. (2011). Thinking, Fast and Slow. — 双过程理论的通俗读物
  • Glimcher, P. W. (2011). Foundations of Neuroeconomic Analysis. — 神经科学、心理学与经济学的交叉

7. 本篇在全书中的位置

本篇介绍心理学如何为 AI 提供行为实验原型、反馈建模框架与偏差评测视角。它尤其连接了强化学习、偏好学习、人机交互与安全评估这几条主线。

与相邻篇章的关系

  • 与[[16-neuroscience|神经科学]]互补:心理学更关心行为与实验现象,神经科学更关心底层实现机制
  • 与[[17-cognitive-science|认知科学]]互补:心理学提供实验范式,认知科学更强调统一的解释模型
  • 与[[23-economics|经济学]]相连:行为经济学把心理偏差转化为决策模型,可进入对齐与偏好聚合问题
  • 与[[13-cybernetics|控制论]]相连:控制论给出反馈系统形式化,心理学展示反馈如何改变实际行为

贡献边界: 心理学并不直接给出 MDP、反向传播或大规模训练系统。它最大的价值,是让 AI 研究者更准确地理解“什么行为值得被奖励”“什么反馈会扭曲学习”“什么界面与评价协议会误导人或模型”。因此,心理学对 AI 的影响往往体现在问题设定、实验设计与评测解释上,而不是直接决定算法细节。