Skip to content

Latest commit

 

History

History
506 lines (319 loc) · 30 KB

File metadata and controls

506 lines (319 loc) · 30 KB
title 语言学
aliases
Linguistics
category
认知、生物与语言
tags
ai-foundations
cognition
linguistics
language
type topic
status stable
importance core
version v2.0
date 2026-04-08

语言学(Linguistics):从起源到 AI 的完整脉络

上帝视角:语言学为 AI 尤其是 NLP/LLM 提供了形式化框架、语义问题定义与评估语言,但它并不等于“语言学理论直接变成今天的模型代码”。从 Chomsky 层级到分布式语义、从语用学到篇章分析,语言学更像是给出了问题的结构与判准,而工程实现则由统计学习、深度学习与大规模语料驱动。


相关主题

  • [[04-information-theory|信息论]]:语言可被看作编码、传输与压缩信息的系统
  • [[08-logic|逻辑学与形式推理]]:语义表示、句法结构与推理形式化长期受逻辑学影响
  • [[17-cognitive-science|认知科学]]:语言能力是认知系统的重要组成部分,也是研究人类智能的关键窗口
  • [[18-psychology|心理学]]:语言理解、习得与使用行为与心理学研究密切相关
  • [[25-philosophy|哲学]]:意义、指称、理解与语言与世界的关系是语言哲学的核心主题

1. 上帝视角:为什么 AI 需要语言学

语言是人类智能最显著的外在表现。Alan Turing 在 1950 年提出的"图灵测试",其核心判据就是机器能否用自然语言与人类进行不可区分的对话。这一选择并非偶然——语言承载了人类思维的几乎全部复杂性:抽象概念、逻辑推理、情感表达、隐喻联想、社会协作。

自然语言处理(Natural Language Processing, NLP)是 AI 领域中应用最广泛、商业价值最高的分支之一。从搜索引擎、机器翻译到聊天机器人、大语言模型(Large Language Model, LLM),NLP 的每一次突破都深深植根于语言学理论。

1.1 NLP 的理论基础

NLP 的核心问题可以归结为:

  • 表示问题:如何将离散的语言符号转化为计算机可处理的数学对象?
  • 结构问题:如何捕捉语言的层次结构(音素→词→短语→句子→篇章)?
  • 意义问题:如何从符号序列中提取语义?
  • 生成问题:如何产生符合语法且有意义的文本?

这些问题的回答,分别对应语言学的不同分支:音系学(phonology)、形态学(morphology)、句法学(syntax)、语义学(semantics)、语用学(pragmatics)。

1.2 与其他学科的关键连接点

学科 连接点 具体影响
计算机科学 形式语言与自动机理论 Chomsky 层级直接定义了编程语言的语法分析
认知科学 语言习得与心智模型 启发了从符号 AI 到连接主义的范式转换
信息论 语言的统计规律 Shannon 的语言熵估计推动了统计 NLP 的早期形成
哲学 意义理论与指称 Wittgenstein 的"语言游戏"启发了语用学和对话系统
概率论 语言模型的数学基础 贝叶斯方法在词性标注、句法分析中的广泛应用
神经科学 大脑语言区的组织方式 启发了循环神经网络和注意力机制的设计
心理学 语言理解的认知过程 花园路径句等现象推动了增量解析算法的发展

在本篇里,语言学与 AI 的关系也需要分层来看:

  • 直接采用:例如 CFG、依存句法、Treebank 标注、词法资源、语义角色标注,直接进入 NLP 工具链
  • 问题定义与评估:例如语法性、可接受性、语义一致性、语用得体性、篇章连贯性
  • 启发性参照:例如语言习得争论、语义组合性、语用含义等,为 LLM 提供分析框架而非现成算法

2. 历史脉络

语言学的历史可以追溯到古印度语法学家 Pāṇini(约公元前 4 世纪),他为梵语编写的语法规则体系被认为是人类最早的形式语言描述。但现代语言学——特别是与 AI 相关的部分——主要从 20 世纪初开始。

2.1 结构主义时期(1900s-1950s)

Ferdinand de Saussure (1916):《普通语言学教程》(Cours de linguistique générale)奠定了现代语言学的基础。Saussure 提出了几个革命性概念:

  • 能指(signifier)与所指(signified):语言符号是任意的,"树"这个词与真实的树之间没有必然联系
  • 语言(langue)与言语(parole):区分了语言系统与具体的语言使用
  • 共时(synchronic)与历时(diachronic):语言可以作为一个系统在某一时刻被研究

对 AI 的影响:Saussure 的"符号的价值由其在系统中与其他符号的关系决定"这一思想,是分布式语义假说的哲学先驱。

Leonard Bloomfield (1933):《语言论》(Language)将行为主义引入语言学,强调可观察的语言行为而非内省。这种经验主义立场后来在统计 NLP 中得到回响。

Zellig Harris (1954):发表《分布式结构》(Distributional Structure),提出了分布式假说(distributional hypothesis)的核心思想:

"出现在相同上下文中的词具有相似的含义。"

这一简洁而深刻的观察,在 60 年后成为 Word2Vec、GloVe 以及所有基于上下文的语言模型的理论基石。

2.2 生成语法革命(1950s-1970s)

Noam Chomsky (1957):《句法结构》(Syntactic Structures)引发了语言学的"认知革命"。Chomsky 的核心贡献包括:

  • 形式语言层级(Chomsky hierarchy):将语言按计算复杂度分为四个层次(详见 3.1 节)
  • 生成语法(generative grammar):语言能力是一套有限的规则,能生成无限的合法句子
  • 深层结构与表层结构:同一个深层语义可以有不同的表层表达
  • 普遍语法(Universal Grammar):人类天生具有语言习得的生物基础

对 AI 的影响:Chomsky 层级直接催生了编译器理论中的语法分析技术。上下文无关文法(Context-Free Grammar, CFG)至今仍是编程语言设计和自然语言句法分析的核心工具。

2.3 统计转向(1980s-2000s)

1980 年代末,随着计算能力的提升和大规模语料库的出现,NLP 经历了从规则方法到统计方法的范式转换。

Frederick Jelinek(IBM,1980s):将统计方法引入语音识别和机器翻译,留下了著名的(可能是杜撰的)名言:

"每当我解雇一个语言学家,语音识别系统的性能就提高一点。"

关键里程碑:

  • 隐马尔可夫模型(Hidden Markov Model, HMM):用于词性标注和语音识别
  • 统计机器翻译(Statistical Machine Translation, SMT):Brown et al. (1990) 的 IBM 模型
  • 最大熵模型(Maximum Entropy):Berger et al. (1996)
  • 条件随机场(Conditional Random Fields, CRF):Lafferty et al. (2001)

2.4 深度学习时代(2010s-至今)

  • Mikolov et al. (2013):Word2Vec,用神经网络学习词的分布式表示
  • Pennington et al. (2014):GloVe,结合全局统计信息的词向量
  • Sutskever et al. (2014):Sequence-to-Sequence 模型,开启神经机器翻译
  • Bahdanau et al. (2015):注意力机制(attention mechanism)
  • Vaswani et al. (2017):Transformer 架构,"Attention Is All You Need"
  • Devlin et al. (2019):BERT,双向预训练语言模型
  • Brown et al. (2020):GPT-3,展示了大规模语言模型的涌现能力
  • OpenAI (2022-2023):ChatGPT / GPT-4,大语言模型进入公众视野

3. 核心知识点详解

3.1 Chomsky 层级(Chomsky Hierarchy)

Chomsky (1956, 1959) 提出的形式语言分类体系,按生成能力从弱到强分为四个层次:

类型 名称 语法规则形式 识别自动机 语言示例
Type-3 正则语言(Regular) $A \to aB$$A \to a$ 有限状态自动机(FSA) $a^n b^m$
Type-2 上下文无关语言(Context-Free) $A \to \gamma$ 下推自动机(PDA) $a^n b^n$
Type-1 上下文相关语言(Context-Sensitive) $\alpha A \beta \to \alpha \gamma \beta$ 线性有界自动机(LBA) $a^n b^n c^n$
Type-0 递归可枚举语言(Recursively Enumerable) $\alpha \to \beta$(无限制) 图灵机(TM) 停机问题的语言

自然语言在 Chomsky 层级中的位置

自然语言的句法结构至少需要上下文无关文法来描述(例如嵌套的从句结构),但某些现象(如瑞士德语中的交叉依赖)超出了 CFG 的表达能力。目前的共识是自然语言属于"温和上下文相关语言"(mildly context-sensitive languages),可以用树邻接文法(Tree Adjoining Grammar, TAG)等形式化工具描述。

对 AI 的意义

  • 正则表达式(Type-3)广泛用于文本模式匹配
  • CFG(Type-2)是句法分析器(parser)的理论基础
  • Chomsky 层级揭示了不同语言现象所需的最小计算能力,指导了 NLP 算法的设计

AI 中的角色

Chomsky 层级依旧是评估模型表达力下限的哲学基础:简单任务可以用 Type-3 的有限状态自动机处理,涉及上下文依赖的句法结构则需要 Type-2 的解析器或 TAG 这样的中介级别,而要捕捉更丰富的语义约束(比如词形变化、跨句上下文)就要转向 Type-1/Type-0 的更强算力。AI 工程师据此约束模型结构、选择正则/CFG/属性文法工具,并在编译器、编程语言、符号推理与形式验证中引入严格的语言等级划分。即便在 LLM 时代,也常常用 Chomsky 层级来设定测试集分层、验证模型是否跨越了“温和上下文相关”边界,从而保证统计模型与语言学可解释性之间的平衡。

3.2 分布式语义假说(Distributional Semantics Hypothesis)

核心思想:一个词的含义可以由它出现的上下文来定义。

用 Harris (1954) 的原话:

"语言元素之间的差异可以用它们出现的环境差异来刻画。"

后来 John Rupert Firth (1957) 将其凝练为更广为人知的表述:

"You shall know a word by the company it keeps."(观其伴,知其义。)

数学化表述

设词汇表为 $V = {w_1, w_2, \ldots, w_N}$,上下文窗口大小为 $k$。对于词 $w_i$,其上下文向量为:

$$\mathbf{c}(w_i) = [c_{i1}, c_{i2}, \ldots, c_{iN}]$$

其中 $c_{ij}$ 表示词 $w_j$$w_i$ 的上下文窗口中出现的次数(或经过 TF-IDF、PMI 等加权后的值)。

两个词的语义相似度可以用余弦相似度衡量:

$$\text{sim}(w_i, w_j) = \frac{\mathbf{c}(w_i) \cdot \mathbf{c}(w_j)}{|\mathbf{c}(w_i)| \cdot |\mathbf{c}(w_j)|}$$ 其中 $\mathbf{c}(w_i) \cdot \mathbf{c}(w_j)$ 为上下文向量的点积, $|\mathbf{c}(w)|$ 表示向量范数,用来归一化频次差异。

从共现矩阵到词向量

  1. 词-文档矩阵:潜在语义分析(Latent Semantic Analysis, LSA),Deerwester et al. (1990)
  2. 词-词共现矩阵:通过 SVD 降维得到稠密向量
  3. 神经网络方法:Word2Vec、GloVe 等直接学习低维稠密表示

AI 中的角色

分布式语义假说是预训练表示的理论起点:共现矩阵与向量化的设计直接影响了词嵌入的预训练任务与目标。对比损失、负采样、以及自监督的遮蔽目标都在重构上下文共现模式,让模型在矢量空间中保持“语义邻近”。在多语言迁移、跨模态对齐以及知识图谱补全等任务中,AI 工程师用这个假说来设定正样本/负样本、选择上下文窗口大小以及设计对比语义距离,从而控制表示的粒度与抽象能力。

直觉理解

直觉上,一个词的意义就是它在句子里“遇到”的邻居——如果你把每个词的上下文当成一个小生态圈,两个词共享大量邻居时,它们看上去就更相似。embedding 就像把这些生态圈投影到向量空间,用距离表达语义距离:共同出现越多,向量越靠近,越能互换上下文。这个直觉也说明了为何频率高的词需要平滑或降重,因为它们的生态圈太大,容易掩盖具体语义。

3.3 词嵌入(Word Embeddings)

词嵌入是将离散的词符号映射到连续向量空间的技术,是现代 NLP 的基石。

Word2Vec(Mikolov et al., 2013)

两种架构:

  1. CBOW(Continuous Bag of Words):用上下文预测中心词 $P(w_t | w_{t-k}, \ldots, w_{t-1}, w_{t+1}, \ldots, w_{t+k})$ 其中上下文集合 ${w_{t-k}, \ldots, w_{t+k}}\setminus {w_t}$ 提供了条件信息,模型试图在所有可能的中心词中选出最有可能的那个。

  2. Skip-gram:用中心词预测上下文 $P(w_{t+j} | w_t), \quad -k \leq j \leq k, ; j \neq 0$ 其中 $j$ 表示上下文位置的偏移,负值对应过去,正值对应未来,模型为每个位置学习相应的分布。

Skip-gram 的目标函数:

$$J = -\frac{1}{T} \sum_{t=1}^{T} \sum_{-k \leq j \leq k, j \neq 0} \log P(w_{t+j} | w_t)$$

其中:

$$P(w_O | w_I) = \frac{\exp(\mathbf{v}'_{w_O} \cdot \mathbf{v}_{w_I})}{\sum_{w=1}^{W} \exp(\mathbf{v}'_w \cdot \mathbf{v}_{w_I})}$$

负采样(Negative Sampling)

由于 softmax 的分母需要遍历整个词汇表,计算代价极高。负采样将问题转化为二分类:

$$J_{\text{NEG}} = \log \sigma(\mathbf{v}'_{w_O} \cdot \mathbf{v}_{w_I}) + \sum_{i=1}^{k} \mathbb{E}_{w_i \sim P_n(w)} [\log \sigma(-\mathbf{v}'_{w_i} \cdot \mathbf{v}_{w_I})]$$

其中 $\sigma$ 是 sigmoid 函数,$P_n(w)$ 是噪声分布(通常取词频的 3/4 次方)。

词向量的代数性质

Word2Vec 学到的向量空间具有令人惊叹的线性结构:

$$\mathbf{v}(\text{king}) - \mathbf{v}(\text{man}) + \mathbf{v}(\text{woman}) \approx \mathbf{v}(\text{queen})$$ 其中各向量差的代数操作体现了语义偏移(semantic offset),即通过减少性别成分再加上女性概念可以逼近“王后”向量。

这种类比关系表明词向量捕捉到了语义和句法的规律性。

AI 中的角色

词嵌入将离散符号映射到几何空间,为大多数 NLP 任务提供通用的初始表征。无论是语言建模、机器翻译还是语义检索,embedding 层都充当“字典”,把稀疏输入变为可微的张量。AI 工程师还会用对比学习或多任务损失微调这些向量,以便对齐多语言语义、融合知识图谱实体、或者让检索-生成系统在相似度上更可控。

直觉理解

把词看做点、把共现看做连接,词嵌入就是在几何空间里排列这些点,使得邻近的点对应语义相近的词:语义“海洋”里的波峰和波谷代表的是话题类别,线性的移动代表的是语义偏移。感知词义的直觉就是:如果两个词在文本中总是出现一起,那么在向量空间里它们也应该靠得很近——embedding 用数字上的“靠近感”量化了这个直觉,使得模型能够通过简单的线性算子实现类比、聚类、甚至隐含的语义刚性。

3.4 从 n-gram 到神经语言模型

语言模型(Language Model) 的核心任务是估计一个词序列的概率:

$$P(w_1, w_2, \ldots, w_T) = \prod_{t=1}^{T} P(w_t | w_1, \ldots, w_{t-1})$$ 其中乘积将序列分解为逐步生成过程,$P(w_t | w_1, \ldots, w_{t-1})$ 反映模型在已有上下文基础上填补下一个词的能力。

n-gram 语言模型

通过马尔可夫假设简化条件概率:

$$P(w_t | w_1, \ldots, w_{t-1}) \approx P(w_t | w_{t-n+1}, \ldots, w_{t-1})$$ 其中 $n$ 表示考虑的上下文长度,丢弃更早的词意味着模型只能根据最近的 $n-1$ 个词做出预测。

  • Unigram(n=1):P(w_t),忽略所有上下文
  • Bigram(n=2):P(w_t | w_{t-1}),只看前一个词
  • Trigram(n=3):P(w_t | w_{t-2}, w_{t-1}),看前两个词

概率估计使用最大似然估计(MLE):

$$P_{\text{MLE}}(w_t | w_{t-1}) = \frac{C(w_{t-1}, w_t)}{C(w_{t-1})}$$

其中 $C(\cdot)$ 是计数函数。

数据稀疏问题与平滑技术

n-gram 模型面临严重的数据稀疏问题——大量合理的 n-gram 在训练语料中从未出现。常用的平滑方法包括:

  • 加一平滑(Laplace smoothing)$$P(w_t | w_{t-1}) = \frac{C(w_{t-1}, w_t) + 1}{C(w_{t-1}) + V}$$
  • Kneser-Ney 平滑:基于词的"多样性"而非频率进行回退
  • 插值法(Interpolation):混合不同阶的 n-gram

困惑度(Perplexity)

语言模型的标准评估指标:

$$\text{PPL} = P(w_1, w_2, \ldots, w_T)^{-1/T} = \exp\left(-\frac{1}{T}\sum_{t=1}^{T} \log P(w_t | w_{<t})\right)$$ 其中 $P(w_{<t})$ 是第 $t$ 步前的上下文序列,在评估时将所有概率取对数并归一化到每个 token 的平均损失。

困惑度越低,模型对测试数据的预测越好。直觉上,困惑度表示模型在每一步平均面临多少个等概率的选择。

神经语言模型

Bengio et al. (2003) 提出了第一个神经概率语言模型(Neural Probabilistic Language Model),用神经网络替代 n-gram 的查表操作:

  1. 将每个词映射为一个稠密向量(词嵌入)
  2. 将上下文词的向量拼接或求和
  3. 通过隐藏层进行非线性变换
  4. 用 softmax 输出下一个词的概率分布

这一架构的关键创新在于:参数共享使得模型能够泛化到未见过的 n-gram。

从 RNN 到 Transformer

  • RNN / LSTM(Hochreiter & Schmidhuber, 1997):通过循环结构处理变长序列,但存在长距离依赖问题
  • 注意力机制(Bahdanau et al., 2015):允许模型在生成每个词时"关注"输入序列的不同部分
  • Transformer(Vaswani et al., 2017):完全基于自注意力(self-attention),并行计算效率极高

自注意力的核心公式:

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$ 其中 $Q, K, V$ 分别表示查询、键和值,点积后再除以 $\sqrt{d_k}$ 是为了控制维度,softmax 保证权重归一化。

AI 中的角色

n-gram 模型提供了“频率统计”的起点,成为语言理解任务中的基准;神经语言模型通过上下文窗口、注意力和自监督目标来扩展这个基准,使得模型在低资源和长文本场景中都能共享参数。AI 工程师利用概率分解公式设计训练目标、使用平滑与插值控制概率估计,并在骨干网络(RNN、Transformer 等)中显式地把上下文窗口作为“记忆”层与自注意力作为“选择器”,从而保证生成内容既高效又可控。

直觉理解

n-gram 就像你记住最近 $n$ 句话里说了什么,越远的内容就被遗忘;神经语言模型则在这个记忆池里插入了密集向量和自注意力,让你在写下一句话前可以“回想”任意长度的上下文——只是需要不断地点亮相关的 token。困惑度直观地告诉我们:模型平均面对多少个离散选项,它越低意味着模型像一个有经验的写作者,对每一步的选择越来越有信心。

3.5 语义学、语用学与篇章理解

语言学对 AI 的真正挑战不只在“词和句子”,而在“句子在语境中是什么意思”。

形式语义学(formal semantics)强调组合性原则:整体意义由部分意义及其组合方式决定。这一思想直接影响了语义解析(semantic parsing)、知识库问答和工具调用,因为模型不仅要生成词,还要恢复可执行的意义结构。

语用学(pragmatics)则关注说话者在具体情境中真正想表达什么。句子“这里有点冷”可能是在描述环境,也可能是在请求关窗。Grice 的合作原则与会话含义(implicature)告诉我们,理解语言不能只看字面形式,还必须看共享背景、交互目标和社会规范。

篇章分析(discourse analysis)进一步要求模型跨句跟踪指代、预设、叙事连贯与话题延续:

  • 小王告诉小李他迟到了 中的“他”指谁?
  • 一段回答是否前后自洽,而不只是逐句流畅?
  • 用户没有明说的信息,哪些是语境默认项,哪些不能擅自脑补?

这些问题正是今天 LLM 的真实短板所在:模型往往句内表现很好,但在跨句一致性、隐含意图、讽刺反话、礼貌策略和多轮对话修复上仍不稳定。

AI 中的角色

语义学、语用学和篇章理解共同构成了现代对话系统、检索系统与 LLM Agent 的质量守门人:

  • 语义学:进入语义解析、知识图谱问答、工具调用、结构化输出校验,核心问题是“句子到底在说什么”
  • 语用学:进入意图识别、礼貌策略、拒答策略、对话安全与指令遵从评测,核心问题是“说话者真正想做什么”
  • 篇章分析:进入长上下文 QA、多轮对话、摘要与报告生成,核心问题是“跨句是否连贯、自洽、可追踪”

对现代 LLM 而言,这些层面更多体现为训练目标和评估标准,而不是单一模块能一劳永逸解决的问题。

3.6 大语言模型的语言学视角

大语言模型(LLM)的成功引发了语言学界的深刻反思。

LLM 学到了什么语言知识?

实证研究表明,LLM 能够:

  • 处理长距离的主谓一致(subject-verb agreement)
  • 理解嵌套的从句结构
  • 执行某种程度的语义推理
  • 展现出对语用规则的敏感性

Chomsky 的批评

Chomsky 及其追随者认为,LLM 只是在做"统计模式匹配",并没有真正理解语言的深层结构。他们的论点包括:

  • LLM 需要的训练数据远超人类儿童的语言输入("贫乏刺激论证"的现代版本)
  • LLM 无法可靠地处理某些句法现象(如中心嵌入的递归结构)
  • 统计相关性不等于因果理解

反驳与调和

  • Piantadosi (2023) 等人指出,LLM 的训练数据虽然量大,但信息密度远低于儿童接收的多模态输入
  • 涌现能力(emergent abilities)表明,规模本身可能带来质的变化
  • 语言学理论和统计方法并非对立,而是互补的

AI 中的角色

大语言模型提供了语言学实证的试验场:研究者可以通过 probing、最小对(minimal pairs)、挑战集、控制生成策略等方法,观察模型在哪些语法/语义/语用现象上可靠、在哪些上仍然薄弱。这一过程不仅推动了 LLM 的可解释性,也让语法学、语义学、语用学获得新的检验对象。

需要强调的是,这类实验更像“语言学分析进入模型评测”,并不自动证明模型已经获得了与人类等价的语言能力。


4. 对 AI 的核心贡献

语言学对 AI 的贡献主要体现在:把语言问题形式化、把语义与语用拆成可分析层级、把评估标准从“词面像不像”推进到“是否真正表达得当”。下面五层里,前两层更多是直接进入 NLP 工具链,后三层更多是为 LLM 提供分析框架和评测判准。

4.1 形式化框架

  • 形式语言理论:为编程语言设计、编译器构造、自然语言解析提供了数学基础
  • 特征结构与合一(unification):HPSG、LFG 等语法理论中的特征结构启发了知识表示方法
  • 类型逻辑语法(Type-Logical Grammar):将句法分析与逻辑推理统一,影响了语义解析(semantic parsing)

4.2 语义表示

  • 谓词逻辑与 lambda 演算:Montague (1970) 将自然语言语义形式化为高阶逻辑,奠定了计算语义学的基础
  • 框架语义学(Frame Semantics):Fillmore (1982) 的理论启发了 FrameNet 等语义资源的构建
  • 词汇语义网络:WordNet(Miller, 1995)是最早的大规模词汇语义数据库,至今仍广泛使用

4.3 语用与对话

  • 言语行为理论(Speech Act Theory):Austin (1962) 和 Searle (1969) 的理论为对话系统中的意图识别提供了框架
  • Grice 会话准则(Gricean Maxims):合作原则(quantity, quality, relation, manner)指导了对话系统的设计
  • 话语结构理论(Discourse Representation Theory, DRT):Kamp (1981) 的理论处理跨句子的指代消解和时态推理

对 LLM 来说,这一层尤其关键,因为很多失败并不是语法错误,而是:

  • 没有识别隐含意图
  • 在长对话中丢失指代锚点
  • 生成了字面正确但语用失礼的回答
  • 把篇章连贯误解为表面重复

4.4 语料库与标注

  • Penn Treebank(Marcus et al., 1993):大规模句法标注语料库,推动了统计句法分析的发展
  • PropBank、NomBank:语义角色标注资源
  • Universal Dependencies:跨语言的依存句法标注标准

4.5 评估方法论

  • BLEU(Papineni et al., 2002):机器翻译评估指标,基于 n-gram 精确率
  • ROUGE:文本摘要评估指标
  • 困惑度(Perplexity):语言模型的标准评估指标
  • 人类评估协议:语言学的内省法和可接受性判断启发了 NLP 的人类评估方法
  • 最小对与挑战集:通过控制一个语言现象来检测模型是否真的掌握了句法、指代或语义约束

语言学的一个重要提醒是:评估不能只测词面相似度,还应区分句法正确性、语义一致性、语用得体性和篇章连贯性。这也是为什么许多自动指标在 LLM 时代越来越不够用。


5. 前沿与开放问题

5.1 LLM 与语言能力的边界

  • LLM 能否真正"理解"语言,还是只在做复杂的模式匹配?
  • 多模态模型(如 GPT-4V)是否比纯文本模型更接近人类的语言理解?
  • 语言模型的"幻觉"(hallucination)问题是否反映了统计方法的根本局限?

5.2 低资源语言与语言多样性

  • 全球约 7000 种语言,绝大多数缺乏数字化资源
  • 跨语言迁移学习(cross-lingual transfer)能否帮助低资源语言?
  • 语言多样性对 AI 系统的公平性有何影响?

5.3 语言与思维的关系

  • Sapir-Whorf 假说(语言相对论)在 AI 时代的新解读
  • 不同语言训练的 LLM 是否展现出不同的"思维方式"?
  • 内部表示(internal representations)是否构成某种"思维语言"(language of thought)?

5.4 可解释性与语言学分析

  • 探针实验(probing experiments):LLM 的内部表示编码了哪些语言学信息?
  • 注意力模式是否对应语言学中的依存关系?
  • 机械可解释性(mechanistic interpretability)能否揭示 LLM 的"语法"?

5.5 语言生成的伦理问题

  • AI 生成文本的版权与归属
  • 深度伪造文本(deepfake text)的检测
  • 语言模型中的偏见与歧视

6. 推荐阅读与参考文献

经典著作

  • Saussure, F. de (1916). Cours de linguistique générale. Payot.
  • Chomsky, N. (1957). Syntactic Structures. Mouton.
  • Harris, Z. (1954). Distributional Structure. Word, 10(2-3), 146-162.
  • Firth, J. R. (1957). A Synopsis of Linguistic Theory. Studies in Linguistic Analysis, 1-32.
  • Montague, R. (1970). Universal Grammar. Theoria, 36(3), 373-398.

NLP 里程碑论文

  • Shannon, C. (1951). Prediction and Entropy of Printed English. Bell System Technical Journal, 30(1), 50-64.
  • Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A Neural Probabilistic Language Model. JMLR, 3, 1137-1155.
  • Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781.
  • Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global Vectors for Word Representation. EMNLP.
  • Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention Is All You Need. NeurIPS.
  • Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers. NAACL.

教材与综述

  • Jurafsky, D. & Martin, J. H. (2024). Speech and Language Processing (3rd ed.). [在线版本]
  • Manning, C. D. & Schütze, H. (1999). Foundations of Statistical Natural Language Processing. MIT Press.
  • Goldberg, Y. (2017). Neural Network Methods for Natural Language Processing. Morgan & Claypool.
  • Bender, E. M. & Koller, A. (2020). Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. ACL.

语言学与 AI 的交叉

  • Piantadosi, S. T. (2023). Modern Language Models Refute Chomsky's Approach to Language. Lingbuzz.
  • Linzen, T. & Baroni, M. (2021). Syntactic Tests for Large Language Models. Cognitive Science.
  • Manning, C. D. (2015). Computational Linguistics and Deep Learning. Computational Linguistics, 41(4), 701-707.

总结:语言学为 AI 提供了理解和处理人类语言的理论框架。从 Chomsky 的形式语言理论到 Harris 的分布式假说,从 n-gram 模型到 Transformer,语言学的核心价值不在于替代统计学习,而在于持续追问:什么是语言理解?哪些成功只是词面拟合,哪些才是真正的语义与语用能力?这些问题仍需要语言学家和 AI 研究者共同回答。


7. 本篇在全书中的位置

本篇介绍语言学如何为 AI 提供语言形式化框架、语义与语用问题定义,以及更细粒度的评估标准。它是理解 NLP、对话系统和大语言模型为何既强大又容易失真的关键章节。

与相邻篇章的关系

  • 与[[17-cognitive-science|认知科学]]相连:认知科学解释语言能力在心智中的地位,语言学进一步拆解语言系统本身
  • 与[[18-psychology|心理学]]相连:心理学关注语言理解与反馈行为,语言学关注语言结构、意义与使用规则
  • 与[[08-logic|逻辑学与形式推理]]相连:形式语义学、语义解析与推理系统长期受逻辑工具影响
  • 与[[04-information-theory|信息论]]相连:语言建模、压缩与不确定性估计依赖信息论与概率建模

贡献边界: 语言学能帮助我们更精确地问“模型是否真的理解了语言”,却不能单独给出最优训练范式。很多现代 LLM 的成功首先来自规模化统计学习,而语言学的角色往往体现在数据标注、任务设计、误差分析与评测标准上。因此,语言学不是深度学习的替代物,而是其重要校准器与解释器。