| title | 语言学 | ||||
|---|---|---|---|---|---|
| aliases |
|
||||
| category |
|
||||
| tags |
|
||||
| type | topic | ||||
| status | stable | ||||
| importance | core | ||||
| version | v2.0 | ||||
| date | 2026-04-08 |
上帝视角:语言学为 AI 尤其是 NLP/LLM 提供了形式化框架、语义问题定义与评估语言,但它并不等于“语言学理论直接变成今天的模型代码”。从 Chomsky 层级到分布式语义、从语用学到篇章分析,语言学更像是给出了问题的结构与判准,而工程实现则由统计学习、深度学习与大规模语料驱动。
- [[04-information-theory|信息论]]:语言可被看作编码、传输与压缩信息的系统
- [[08-logic|逻辑学与形式推理]]:语义表示、句法结构与推理形式化长期受逻辑学影响
- [[17-cognitive-science|认知科学]]:语言能力是认知系统的重要组成部分,也是研究人类智能的关键窗口
- [[18-psychology|心理学]]:语言理解、习得与使用行为与心理学研究密切相关
- [[25-philosophy|哲学]]:意义、指称、理解与语言与世界的关系是语言哲学的核心主题
语言是人类智能最显著的外在表现。Alan Turing 在 1950 年提出的"图灵测试",其核心判据就是机器能否用自然语言与人类进行不可区分的对话。这一选择并非偶然——语言承载了人类思维的几乎全部复杂性:抽象概念、逻辑推理、情感表达、隐喻联想、社会协作。
自然语言处理(Natural Language Processing, NLP)是 AI 领域中应用最广泛、商业价值最高的分支之一。从搜索引擎、机器翻译到聊天机器人、大语言模型(Large Language Model, LLM),NLP 的每一次突破都深深植根于语言学理论。
NLP 的核心问题可以归结为:
- 表示问题:如何将离散的语言符号转化为计算机可处理的数学对象?
- 结构问题:如何捕捉语言的层次结构(音素→词→短语→句子→篇章)?
- 意义问题:如何从符号序列中提取语义?
- 生成问题:如何产生符合语法且有意义的文本?
这些问题的回答,分别对应语言学的不同分支:音系学(phonology)、形态学(morphology)、句法学(syntax)、语义学(semantics)、语用学(pragmatics)。
| 学科 | 连接点 | 具体影响 |
|---|---|---|
| 计算机科学 | 形式语言与自动机理论 | Chomsky 层级直接定义了编程语言的语法分析 |
| 认知科学 | 语言习得与心智模型 | 启发了从符号 AI 到连接主义的范式转换 |
| 信息论 | 语言的统计规律 | Shannon 的语言熵估计推动了统计 NLP 的早期形成 |
| 哲学 | 意义理论与指称 | Wittgenstein 的"语言游戏"启发了语用学和对话系统 |
| 概率论 | 语言模型的数学基础 | 贝叶斯方法在词性标注、句法分析中的广泛应用 |
| 神经科学 | 大脑语言区的组织方式 | 启发了循环神经网络和注意力机制的设计 |
| 心理学 | 语言理解的认知过程 | 花园路径句等现象推动了增量解析算法的发展 |
在本篇里,语言学与 AI 的关系也需要分层来看:
- 直接采用:例如 CFG、依存句法、Treebank 标注、词法资源、语义角色标注,直接进入 NLP 工具链
- 问题定义与评估:例如语法性、可接受性、语义一致性、语用得体性、篇章连贯性
- 启发性参照:例如语言习得争论、语义组合性、语用含义等,为 LLM 提供分析框架而非现成算法
语言学的历史可以追溯到古印度语法学家 Pāṇini(约公元前 4 世纪),他为梵语编写的语法规则体系被认为是人类最早的形式语言描述。但现代语言学——特别是与 AI 相关的部分——主要从 20 世纪初开始。
Ferdinand de Saussure (1916):《普通语言学教程》(Cours de linguistique générale)奠定了现代语言学的基础。Saussure 提出了几个革命性概念:
- 能指(signifier)与所指(signified):语言符号是任意的,"树"这个词与真实的树之间没有必然联系
- 语言(langue)与言语(parole):区分了语言系统与具体的语言使用
- 共时(synchronic)与历时(diachronic):语言可以作为一个系统在某一时刻被研究
对 AI 的影响:Saussure 的"符号的价值由其在系统中与其他符号的关系决定"这一思想,是分布式语义假说的哲学先驱。
Leonard Bloomfield (1933):《语言论》(Language)将行为主义引入语言学,强调可观察的语言行为而非内省。这种经验主义立场后来在统计 NLP 中得到回响。
Zellig Harris (1954):发表《分布式结构》(Distributional Structure),提出了分布式假说(distributional hypothesis)的核心思想:
"出现在相同上下文中的词具有相似的含义。"
这一简洁而深刻的观察,在 60 年后成为 Word2Vec、GloVe 以及所有基于上下文的语言模型的理论基石。
Noam Chomsky (1957):《句法结构》(Syntactic Structures)引发了语言学的"认知革命"。Chomsky 的核心贡献包括:
- 形式语言层级(Chomsky hierarchy):将语言按计算复杂度分为四个层次(详见 3.1 节)
- 生成语法(generative grammar):语言能力是一套有限的规则,能生成无限的合法句子
- 深层结构与表层结构:同一个深层语义可以有不同的表层表达
- 普遍语法(Universal Grammar):人类天生具有语言习得的生物基础
对 AI 的影响:Chomsky 层级直接催生了编译器理论中的语法分析技术。上下文无关文法(Context-Free Grammar, CFG)至今仍是编程语言设计和自然语言句法分析的核心工具。
1980 年代末,随着计算能力的提升和大规模语料库的出现,NLP 经历了从规则方法到统计方法的范式转换。
Frederick Jelinek(IBM,1980s):将统计方法引入语音识别和机器翻译,留下了著名的(可能是杜撰的)名言:
"每当我解雇一个语言学家,语音识别系统的性能就提高一点。"
关键里程碑:
- 隐马尔可夫模型(Hidden Markov Model, HMM):用于词性标注和语音识别
- 统计机器翻译(Statistical Machine Translation, SMT):Brown et al. (1990) 的 IBM 模型
- 最大熵模型(Maximum Entropy):Berger et al. (1996)
- 条件随机场(Conditional Random Fields, CRF):Lafferty et al. (2001)
- Mikolov et al. (2013):Word2Vec,用神经网络学习词的分布式表示
- Pennington et al. (2014):GloVe,结合全局统计信息的词向量
- Sutskever et al. (2014):Sequence-to-Sequence 模型,开启神经机器翻译
- Bahdanau et al. (2015):注意力机制(attention mechanism)
- Vaswani et al. (2017):Transformer 架构,"Attention Is All You Need"
- Devlin et al. (2019):BERT,双向预训练语言模型
- Brown et al. (2020):GPT-3,展示了大规模语言模型的涌现能力
- OpenAI (2022-2023):ChatGPT / GPT-4,大语言模型进入公众视野
Chomsky (1956, 1959) 提出的形式语言分类体系,按生成能力从弱到强分为四个层次:
| 类型 | 名称 | 语法规则形式 | 识别自动机 | 语言示例 |
|---|---|---|---|---|
| Type-3 | 正则语言(Regular) |
|
有限状态自动机(FSA) | |
| Type-2 | 上下文无关语言(Context-Free) | 下推自动机(PDA) | ||
| Type-1 | 上下文相关语言(Context-Sensitive) | 线性有界自动机(LBA) | ||
| Type-0 | 递归可枚举语言(Recursively Enumerable) |
|
图灵机(TM) | 停机问题的语言 |
自然语言在 Chomsky 层级中的位置:
自然语言的句法结构至少需要上下文无关文法来描述(例如嵌套的从句结构),但某些现象(如瑞士德语中的交叉依赖)超出了 CFG 的表达能力。目前的共识是自然语言属于"温和上下文相关语言"(mildly context-sensitive languages),可以用树邻接文法(Tree Adjoining Grammar, TAG)等形式化工具描述。
对 AI 的意义:
- 正则表达式(Type-3)广泛用于文本模式匹配
- CFG(Type-2)是句法分析器(parser)的理论基础
- Chomsky 层级揭示了不同语言现象所需的最小计算能力,指导了 NLP 算法的设计
Chomsky 层级依旧是评估模型表达力下限的哲学基础:简单任务可以用 Type-3 的有限状态自动机处理,涉及上下文依赖的句法结构则需要 Type-2 的解析器或 TAG 这样的中介级别,而要捕捉更丰富的语义约束(比如词形变化、跨句上下文)就要转向 Type-1/Type-0 的更强算力。AI 工程师据此约束模型结构、选择正则/CFG/属性文法工具,并在编译器、编程语言、符号推理与形式验证中引入严格的语言等级划分。即便在 LLM 时代,也常常用 Chomsky 层级来设定测试集分层、验证模型是否跨越了“温和上下文相关”边界,从而保证统计模型与语言学可解释性之间的平衡。
核心思想:一个词的含义可以由它出现的上下文来定义。
用 Harris (1954) 的原话:
"语言元素之间的差异可以用它们出现的环境差异来刻画。"
后来 John Rupert Firth (1957) 将其凝练为更广为人知的表述:
"You shall know a word by the company it keeps."(观其伴,知其义。)
数学化表述:
设词汇表为
其中
两个词的语义相似度可以用余弦相似度衡量:
从共现矩阵到词向量:
- 词-文档矩阵:潜在语义分析(Latent Semantic Analysis, LSA),Deerwester et al. (1990)
- 词-词共现矩阵:通过 SVD 降维得到稠密向量
- 神经网络方法:Word2Vec、GloVe 等直接学习低维稠密表示
分布式语义假说是预训练表示的理论起点:共现矩阵与向量化的设计直接影响了词嵌入的预训练任务与目标。对比损失、负采样、以及自监督的遮蔽目标都在重构上下文共现模式,让模型在矢量空间中保持“语义邻近”。在多语言迁移、跨模态对齐以及知识图谱补全等任务中,AI 工程师用这个假说来设定正样本/负样本、选择上下文窗口大小以及设计对比语义距离,从而控制表示的粒度与抽象能力。
直觉上,一个词的意义就是它在句子里“遇到”的邻居——如果你把每个词的上下文当成一个小生态圈,两个词共享大量邻居时,它们看上去就更相似。embedding 就像把这些生态圈投影到向量空间,用距离表达语义距离:共同出现越多,向量越靠近,越能互换上下文。这个直觉也说明了为何频率高的词需要平滑或降重,因为它们的生态圈太大,容易掩盖具体语义。
词嵌入是将离散的词符号映射到连续向量空间的技术,是现代 NLP 的基石。
Word2Vec(Mikolov et al., 2013):
两种架构:
-
CBOW(Continuous Bag of Words):用上下文预测中心词
$P(w_t | w_{t-k}, \ldots, w_{t-1}, w_{t+1}, \ldots, w_{t+k})$ 其中上下文集合${w_{t-k}, \ldots, w_{t+k}}\setminus {w_t}$ 提供了条件信息,模型试图在所有可能的中心词中选出最有可能的那个。 -
Skip-gram:用中心词预测上下文
$P(w_{t+j} | w_t), \quad -k \leq j \leq k, ; j \neq 0$ 其中$j$ 表示上下文位置的偏移,负值对应过去,正值对应未来,模型为每个位置学习相应的分布。
Skip-gram 的目标函数:
其中:
负采样(Negative Sampling):
由于 softmax 的分母需要遍历整个词汇表,计算代价极高。负采样将问题转化为二分类:
其中
词向量的代数性质:
Word2Vec 学到的向量空间具有令人惊叹的线性结构:
这种类比关系表明词向量捕捉到了语义和句法的规律性。
词嵌入将离散符号映射到几何空间,为大多数 NLP 任务提供通用的初始表征。无论是语言建模、机器翻译还是语义检索,embedding 层都充当“字典”,把稀疏输入变为可微的张量。AI 工程师还会用对比学习或多任务损失微调这些向量,以便对齐多语言语义、融合知识图谱实体、或者让检索-生成系统在相似度上更可控。
把词看做点、把共现看做连接,词嵌入就是在几何空间里排列这些点,使得邻近的点对应语义相近的词:语义“海洋”里的波峰和波谷代表的是话题类别,线性的移动代表的是语义偏移。感知词义的直觉就是:如果两个词在文本中总是出现一起,那么在向量空间里它们也应该靠得很近——embedding 用数字上的“靠近感”量化了这个直觉,使得模型能够通过简单的线性算子实现类比、聚类、甚至隐含的语义刚性。
语言模型(Language Model) 的核心任务是估计一个词序列的概率:
n-gram 语言模型:
通过马尔可夫假设简化条件概率:
- Unigram(n=1):P(w_t),忽略所有上下文
- Bigram(n=2):P(w_t | w_{t-1}),只看前一个词
- Trigram(n=3):P(w_t | w_{t-2}, w_{t-1}),看前两个词
概率估计使用最大似然估计(MLE):
其中
数据稀疏问题与平滑技术:
n-gram 模型面临严重的数据稀疏问题——大量合理的 n-gram 在训练语料中从未出现。常用的平滑方法包括:
-
加一平滑(Laplace smoothing):
$$P(w_t | w_{t-1}) = \frac{C(w_{t-1}, w_t) + 1}{C(w_{t-1}) + V}$$ - Kneser-Ney 平滑:基于词的"多样性"而非频率进行回退
- 插值法(Interpolation):混合不同阶的 n-gram
困惑度(Perplexity):
语言模型的标准评估指标:
困惑度越低,模型对测试数据的预测越好。直觉上,困惑度表示模型在每一步平均面临多少个等概率的选择。
神经语言模型:
Bengio et al. (2003) 提出了第一个神经概率语言模型(Neural Probabilistic Language Model),用神经网络替代 n-gram 的查表操作:
- 将每个词映射为一个稠密向量(词嵌入)
- 将上下文词的向量拼接或求和
- 通过隐藏层进行非线性变换
- 用 softmax 输出下一个词的概率分布
这一架构的关键创新在于:参数共享使得模型能够泛化到未见过的 n-gram。
从 RNN 到 Transformer:
- RNN / LSTM(Hochreiter & Schmidhuber, 1997):通过循环结构处理变长序列,但存在长距离依赖问题
- 注意力机制(Bahdanau et al., 2015):允许模型在生成每个词时"关注"输入序列的不同部分
- Transformer(Vaswani et al., 2017):完全基于自注意力(self-attention),并行计算效率极高
自注意力的核心公式:
n-gram 模型提供了“频率统计”的起点,成为语言理解任务中的基准;神经语言模型通过上下文窗口、注意力和自监督目标来扩展这个基准,使得模型在低资源和长文本场景中都能共享参数。AI 工程师利用概率分解公式设计训练目标、使用平滑与插值控制概率估计,并在骨干网络(RNN、Transformer 等)中显式地把上下文窗口作为“记忆”层与自注意力作为“选择器”,从而保证生成内容既高效又可控。
n-gram 就像你记住最近
语言学对 AI 的真正挑战不只在“词和句子”,而在“句子在语境中是什么意思”。
形式语义学(formal semantics)强调组合性原则:整体意义由部分意义及其组合方式决定。这一思想直接影响了语义解析(semantic parsing)、知识库问答和工具调用,因为模型不仅要生成词,还要恢复可执行的意义结构。
语用学(pragmatics)则关注说话者在具体情境中真正想表达什么。句子“这里有点冷”可能是在描述环境,也可能是在请求关窗。Grice 的合作原则与会话含义(implicature)告诉我们,理解语言不能只看字面形式,还必须看共享背景、交互目标和社会规范。
篇章分析(discourse analysis)进一步要求模型跨句跟踪指代、预设、叙事连贯与话题延续:
小王告诉小李他迟到了中的“他”指谁?- 一段回答是否前后自洽,而不只是逐句流畅?
- 用户没有明说的信息,哪些是语境默认项,哪些不能擅自脑补?
这些问题正是今天 LLM 的真实短板所在:模型往往句内表现很好,但在跨句一致性、隐含意图、讽刺反话、礼貌策略和多轮对话修复上仍不稳定。
语义学、语用学和篇章理解共同构成了现代对话系统、检索系统与 LLM Agent 的质量守门人:
- 语义学:进入语义解析、知识图谱问答、工具调用、结构化输出校验,核心问题是“句子到底在说什么”
- 语用学:进入意图识别、礼貌策略、拒答策略、对话安全与指令遵从评测,核心问题是“说话者真正想做什么”
- 篇章分析:进入长上下文 QA、多轮对话、摘要与报告生成,核心问题是“跨句是否连贯、自洽、可追踪”
对现代 LLM 而言,这些层面更多体现为训练目标和评估标准,而不是单一模块能一劳永逸解决的问题。
大语言模型(LLM)的成功引发了语言学界的深刻反思。
LLM 学到了什么语言知识?
实证研究表明,LLM 能够:
- 处理长距离的主谓一致(subject-verb agreement)
- 理解嵌套的从句结构
- 执行某种程度的语义推理
- 展现出对语用规则的敏感性
Chomsky 的批评:
Chomsky 及其追随者认为,LLM 只是在做"统计模式匹配",并没有真正理解语言的深层结构。他们的论点包括:
- LLM 需要的训练数据远超人类儿童的语言输入("贫乏刺激论证"的现代版本)
- LLM 无法可靠地处理某些句法现象(如中心嵌入的递归结构)
- 统计相关性不等于因果理解
反驳与调和:
- Piantadosi (2023) 等人指出,LLM 的训练数据虽然量大,但信息密度远低于儿童接收的多模态输入
- 涌现能力(emergent abilities)表明,规模本身可能带来质的变化
- 语言学理论和统计方法并非对立,而是互补的
大语言模型提供了语言学实证的试验场:研究者可以通过 probing、最小对(minimal pairs)、挑战集、控制生成策略等方法,观察模型在哪些语法/语义/语用现象上可靠、在哪些上仍然薄弱。这一过程不仅推动了 LLM 的可解释性,也让语法学、语义学、语用学获得新的检验对象。
需要强调的是,这类实验更像“语言学分析进入模型评测”,并不自动证明模型已经获得了与人类等价的语言能力。
语言学对 AI 的贡献主要体现在:把语言问题形式化、把语义与语用拆成可分析层级、把评估标准从“词面像不像”推进到“是否真正表达得当”。下面五层里,前两层更多是直接进入 NLP 工具链,后三层更多是为 LLM 提供分析框架和评测判准。
- 形式语言理论:为编程语言设计、编译器构造、自然语言解析提供了数学基础
- 特征结构与合一(unification):HPSG、LFG 等语法理论中的特征结构启发了知识表示方法
- 类型逻辑语法(Type-Logical Grammar):将句法分析与逻辑推理统一,影响了语义解析(semantic parsing)
- 谓词逻辑与 lambda 演算:Montague (1970) 将自然语言语义形式化为高阶逻辑,奠定了计算语义学的基础
- 框架语义学(Frame Semantics):Fillmore (1982) 的理论启发了 FrameNet 等语义资源的构建
- 词汇语义网络:WordNet(Miller, 1995)是最早的大规模词汇语义数据库,至今仍广泛使用
- 言语行为理论(Speech Act Theory):Austin (1962) 和 Searle (1969) 的理论为对话系统中的意图识别提供了框架
- Grice 会话准则(Gricean Maxims):合作原则(quantity, quality, relation, manner)指导了对话系统的设计
- 话语结构理论(Discourse Representation Theory, DRT):Kamp (1981) 的理论处理跨句子的指代消解和时态推理
对 LLM 来说,这一层尤其关键,因为很多失败并不是语法错误,而是:
- 没有识别隐含意图
- 在长对话中丢失指代锚点
- 生成了字面正确但语用失礼的回答
- 把篇章连贯误解为表面重复
- Penn Treebank(Marcus et al., 1993):大规模句法标注语料库,推动了统计句法分析的发展
- PropBank、NomBank:语义角色标注资源
- Universal Dependencies:跨语言的依存句法标注标准
- BLEU(Papineni et al., 2002):机器翻译评估指标,基于 n-gram 精确率
- ROUGE:文本摘要评估指标
- 困惑度(Perplexity):语言模型的标准评估指标
- 人类评估协议:语言学的内省法和可接受性判断启发了 NLP 的人类评估方法
- 最小对与挑战集:通过控制一个语言现象来检测模型是否真的掌握了句法、指代或语义约束
语言学的一个重要提醒是:评估不能只测词面相似度,还应区分句法正确性、语义一致性、语用得体性和篇章连贯性。这也是为什么许多自动指标在 LLM 时代越来越不够用。
- LLM 能否真正"理解"语言,还是只在做复杂的模式匹配?
- 多模态模型(如 GPT-4V)是否比纯文本模型更接近人类的语言理解?
- 语言模型的"幻觉"(hallucination)问题是否反映了统计方法的根本局限?
- 全球约 7000 种语言,绝大多数缺乏数字化资源
- 跨语言迁移学习(cross-lingual transfer)能否帮助低资源语言?
- 语言多样性对 AI 系统的公平性有何影响?
- Sapir-Whorf 假说(语言相对论)在 AI 时代的新解读
- 不同语言训练的 LLM 是否展现出不同的"思维方式"?
- 内部表示(internal representations)是否构成某种"思维语言"(language of thought)?
- 探针实验(probing experiments):LLM 的内部表示编码了哪些语言学信息?
- 注意力模式是否对应语言学中的依存关系?
- 机械可解释性(mechanistic interpretability)能否揭示 LLM 的"语法"?
- AI 生成文本的版权与归属
- 深度伪造文本(deepfake text)的检测
- 语言模型中的偏见与歧视
- Saussure, F. de (1916). Cours de linguistique générale. Payot.
- Chomsky, N. (1957). Syntactic Structures. Mouton.
- Harris, Z. (1954). Distributional Structure. Word, 10(2-3), 146-162.
- Firth, J. R. (1957). A Synopsis of Linguistic Theory. Studies in Linguistic Analysis, 1-32.
- Montague, R. (1970). Universal Grammar. Theoria, 36(3), 373-398.
- Shannon, C. (1951). Prediction and Entropy of Printed English. Bell System Technical Journal, 30(1), 50-64.
- Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A Neural Probabilistic Language Model. JMLR, 3, 1137-1155.
- Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781.
- Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global Vectors for Word Representation. EMNLP.
- Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention Is All You Need. NeurIPS.
- Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers. NAACL.
- Jurafsky, D. & Martin, J. H. (2024). Speech and Language Processing (3rd ed.). [在线版本]
- Manning, C. D. & Schütze, H. (1999). Foundations of Statistical Natural Language Processing. MIT Press.
- Goldberg, Y. (2017). Neural Network Methods for Natural Language Processing. Morgan & Claypool.
- Bender, E. M. & Koller, A. (2020). Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. ACL.
- Piantadosi, S. T. (2023). Modern Language Models Refute Chomsky's Approach to Language. Lingbuzz.
- Linzen, T. & Baroni, M. (2021). Syntactic Tests for Large Language Models. Cognitive Science.
- Manning, C. D. (2015). Computational Linguistics and Deep Learning. Computational Linguistics, 41(4), 701-707.
总结:语言学为 AI 提供了理解和处理人类语言的理论框架。从 Chomsky 的形式语言理论到 Harris 的分布式假说,从 n-gram 模型到 Transformer,语言学的核心价值不在于替代统计学习,而在于持续追问:什么是语言理解?哪些成功只是词面拟合,哪些才是真正的语义与语用能力?这些问题仍需要语言学家和 AI 研究者共同回答。
本篇介绍语言学如何为 AI 提供语言形式化框架、语义与语用问题定义,以及更细粒度的评估标准。它是理解 NLP、对话系统和大语言模型为何既强大又容易失真的关键章节。
与相邻篇章的关系:
- 与[[17-cognitive-science|认知科学]]相连:认知科学解释语言能力在心智中的地位,语言学进一步拆解语言系统本身
- 与[[18-psychology|心理学]]相连:心理学关注语言理解与反馈行为,语言学关注语言结构、意义与使用规则
- 与[[08-logic|逻辑学与形式推理]]相连:形式语义学、语义解析与推理系统长期受逻辑工具影响
- 与[[04-information-theory|信息论]]相连:语言建模、压缩与不确定性估计依赖信息论与概率建模
贡献边界: 语言学能帮助我们更精确地问“模型是否真的理解了语言”,却不能单独给出最优训练范式。很多现代 LLM 的成功首先来自规模化统计学习,而语言学的角色往往体现在数据标注、任务设计、误差分析与评测标准上。因此,语言学不是深度学习的替代物,而是其重要校准器与解释器。