386 lines (280 loc) · 24.7 KB

AI Engineering Glossary

A

Agent

What people say: "一个能自己思考、自己行动的自主 AI"
What it actually means: 一个 while 循环：LLM 决定下一步调哪个工具，执行它，看结果，然后重复
Why it's called that: Borrowed from philosophy — an "agent" is anything that can act in the world. In AI, it just means "LLM + tools + loop"

Attention

What people say: "AI 怎么聚焦到重要的部分上"
What it actually means: 一种机制：每个 token 都对所有其他 token 的 value 算加权和，权重取决于它们有多相关（通过 query 和 key 向量的点积算出来）
Why it's called that: The 2017 paper "Attention Is All You Need" named it by analogy to human selective attention

Alignment

What people say: "让 AI 安全"
What it actually means: 一个技术难题：让 AI 系统的行为匹配人类的意图、价值观和偏好，包括设计者没预料到的边缘情况

Autoregressive

What people say: "AI 一次生成一个词"
What it actually means: 一种模型，基于前面所有 token 来预测下一个 token，再把这个预测喂回去作为下一步的输入。GPT、LLaMA 和 Claude 都是自回归的。

Activation Function

What people say: "层与层之间那个非线性的东西"
What it actually means: 在每个线性层之后施加的一个函数，用来引入非线性。没有它，再多线性层叠起来也会塌缩成一个线性变换。ReLU、GELU 和 SiLU 最常见。这个选择直接影响训练时梯度能不能流动。

Adam (Optimizer)

What people say: "默认的优化器"
What it actually means: 自适应矩估计（Adaptive Moment Estimation）。把动量（一阶矩）和每个参数的自适应学习率（二阶矩）结合起来。对早期步数有偏差修正。不用怎么调，在大多数任务上都好使。

AdamW

What people say: "Adam 但更好"
What it actually means: 带解耦权重衰减的 Adam。标准 Adam 里，L2 正则会被每个参数的自适应学习率缩放，这不是你想要的。AdamW 把权重衰减直接施加到权重上，跟梯度统计量无关。训练 transformer 的默认优化器。

Autograd

What people say: "自动求梯度"
What it actually means: 一个系统，记录张量上的操作，并通过反向模式微分自动算梯度。PyTorch 的 autograd 是边跑边建计算图（动态图），JAX 则用函数变换（grad）。正是它让反向传播变得实用——你只写前向传播，框架替你算出所有导数。

B

Batch Size

What people say: "一次处理多少个样本"
What it actually means: 在更新权重前，一次前向/反向传播里处理的训练样本数。批越大，梯度估计越稳，但占内存越多。典型值：训练时 32-512，推理时更大。批大小和学习率相互关联——批翻倍，学习率也翻倍（线性缩放规则）。

Backpropagation

What people say: "神经网络怎么学习"
What it actually means: 一种算法，通过在网络里反向施加链式法则，算出每个权重对误差贡献了多少，然后按比例调整权重
Why it's called that: Errors propagate backward from output to input, layer by layer

C

Context Window

What people say: "AI 能记住多少东西"
What it actually means: 一次 API 调用里能装下的最大 token 数（输入 + 输出）。不是记忆——它是个固定大小的缓冲区，每次调用都会清空

Chain of Thought (CoT)

What people say: "让 AI 一步一步思考"
What it actually means: 一种提示技巧，让模型把推理步骤展示出来，从而提升多步问题的准确率，因为每一步都为下一个 token 的生成提供了条件

CNN (Convolutional Neural Network)

What people say: "图像 AI"
What it actually means: 一种神经网络，用卷积操作（在输入上滑动滤波器）来检测局部模式。卷积层堆叠起来，能检测越来越复杂的特征：边缘、纹理、物体。

CUDA

What people say: "GPU 编程"
What it actually means: NVIDIA 的并行计算平台。让你能在成千上万个 GPU 核心上同时跑矩阵运算。PyTorch 和 TensorFlow 底层都用 CUDA。

Chunking

What people say: "把文档切成小块"
What it actually means: 在嵌入用于检索之前，把文本切成段。块大小决定搜索结果的粒度。太小：丢上下文。太大：稀释相关性。常见策略：定长加重叠、按句子切、或语义切分。典型块大小：256-512 个 token，重叠 10-20%。

Contrastive Learning

What people say: "通过对比来学习"
What it actually means: 在嵌入空间里把相似的样本对拉近、把不相似的样本对推远来训练。CLIP 就用这招：匹配的图文对对上不匹配的。

Cosine Similarity

What people say: "两个向量有多相似"
What it actually means: 两个向量夹角的余弦：dot(a, b) / (||a|| * ||b||)。取值从 -1（相反）到 1（方向完全一致）。忽略长度，只看方向。嵌入和语义搜索的标准相似度指标。

Cross-Entropy

What people say: "分类用的损失"
What it actually means: 衡量两个概率分布之间的差距。分类用：-sum(y_true * log(y_pred))。语言模型用：正确的下一个 token 的负对数概率。越低越好。困惑度不过就是 exp(交叉熵)。

D

Data Augmentation

What people say: "制造更多训练数据"
What it actually means: 给现有数据造修改过的副本（旋转图像、加噪声、改写文本），在不采集新数据的前提下增加训练集的多样性。能减少过拟合。

Decoder

What people say: "负责输出的那部分"
What it actually means: 在 transformer 里，解码器用因果（掩码）自注意力，让每个位置只能关注更早的位置。GPT 是纯解码器。BERT 是纯编码器。T5 是编码器-解码器。

Diffusion Model

What people say: "从噪声里生成图像的 AI"
What it actually means: 一种模型，训练它去逆转一个逐步加噪的过程——它学会预测并去除噪声，生成时从纯噪声开始，反复去噪

DPO (Direct Preference Optimization)

What people say: "更简单的 RLHF"
What it actually means: 一种训练方法，完全跳过奖励模型——直接优化语言模型，让它在成对的人类偏好里更倾向于更好的那个回答

Dropout

What people say: "随机关掉一些神经元"
What it actually means: 训练时随机把一部分激活值置零。逼网络不去依赖任何单个神经元。推理时关掉。简单但有效的正则化手段。

E

Eigenvalue

What people say: "PCA 里那个数学概念"
What it actually means: 对于矩阵 A，特征值 lambda 满足 Av = lambda*v（v 是某个向量）。它告诉你矩阵在那个方向上把向量缩放了多少。大特征值 = 数据中高方差的方向。

Embedding

What people say: "某种把词变成数字的 AI 魔法"
What it actually means: 一个学出来的映射，把离散项（词、图像、用户）映到连续空间里的稠密向量，相似的项最终会靠在一起
Why it's called that: The items are "embedded" in a geometric space where distance has meaning

Encoder

What people say: "负责输入的那部分"
What it actually means: 在 transformer 里，编码器用双向自注意力，让每个位置能关注所有位置。BERT 是纯编码器。擅长理解类任务（分类、NER），但不擅长生成。

Epoch

What people say: "把数据过一遍"
What it actually means: 就是字面意思。完整地过一遍训练集里的每个样本。多个 epoch = 把数据看了好几遍。epoch 越多学得可能越好，但有过拟合的风险。

F

Feature

What people say: "数据里的一列"
What it actually means: 数据的一个可测量的属性。在经典 ML 里，你手工构造特征。在深度学习里，网络从原始数据里自动学特征。

Few-Shot

What people say: "先给 AI 几个例子"
What it actually means: 在让模型干活之前，在 prompt 里塞少量的输入-输出示例。通常 3-5 个。模型靠这些示例做模式匹配，搞清楚你想要的格式和行为。对比零样本（没例子）和微调（成千上万的例子烤进权重里）。

Fine-tuning

What people say: "用你的数据训练 AI"
What it actually means: 从一个预训练模型的权重出发，在更小的、特定任务的数据集上继续训练。只更新已有权重，不会从零加入新知识

Function Calling

What people say: "能用工具的 AI"
What it actually means: 一种让 LLM 请求执行外部函数的结构化方式。你用 JSON Schema 描述定义工具，模型输出一个结构化 JSON 对象，指明调哪个函数、传什么参数，你的代码执行它，结果再返回给模型。和 agent 不是一回事——函数调用是机制，agent 是那个循环。

G

Guardrails

What people say: "给 AI 的安全过滤器"
What it actually means: 围绕 LLM 的输入/输出校验层，用来检测并拦截有害内容、提示注入企图、PII 泄露或跑题的回答。通常是一条流水线：输入过滤 -> LLM -> 输出过滤。可以是规则驱动（正则、关键词表）或模型驱动（一个给安全性打分的分类器）。

GPT

What people say: "ChatGPT" 或 "那个 AI"
What it actually means: 生成式预训练 Transformer（Generative Pre-trained Transformer）——一种特定架构，用纯解码器 transformer 在大规模文本语料上训练，来预测下一个 token
Why it's called that: Generative (produces text), Pre-trained (trained once on large data, then adapted), Transformer (the architecture)

GAN (Generative Adversarial Network)

What people say: "两个 AI 互相对抗"
What it actually means: 一个生成器网络试图造出逼真的数据，一个判别器网络试图分辨真假。它们一起训练：生成器越来越会骗判别器，判别器越来越会识别假货。

Gradient

What people say: "斜率"
What it actually means: 一个偏导数向量，指向最陡上升的方向。在 ML 里，你朝梯度的反方向走（梯度下降）来最小化损失。

Gradient Descent

What people say: "AI 怎么变强"
What it actually means: 一种优化算法，朝着最陡地减小损失函数的方向调整参数，就像在高维地形里往山下走

H

Hyperparameter

What people say: "你要调的设置"
What it actually means: 训练前设定、用来控制训练过程本身的值：学习率、批大小、层数、dropout 比例。和模型参数（权重）不同，这些不是从数据里学出来的。

Hallucination

What people say: "AI 在撒谎" 或 "在瞎编"
What it actually means: 模型生成了听起来像模像样、但既不基于训练数据也不基于给定上下文的文本——它是在补全模式，不是在检索事实

I

Inference

What people say: "跑 AI"
What it actually means: 用训练好的模型对新数据做预测。不发生权重更新。这就是你在生产里干的事：送进输入，拿到输出。

Inductive Bias

What people say: 没听过
What it actually means: 烤进模型架构里的那些假设。CNN 假设局部模式重要（卷积）。RNN 假设顺序重要（顺序处理）。Transformer 假设一切都可能和一切相关（注意力）。合适的偏置能让模型用更少的数据学得更快。

JAX

What people say: "谷歌的 ML 框架"
What it actually means: 一个兼容 NumPy 的库，加上了自动微分（grad）、JIT 编译（jit）、自动向量化（vmap）和多设备并行（pmap）。和 PyTorch 的面向对象风格不同，JAX 是纯函数式的——没有隐藏状态，没有原地修改。Google DeepMind 用它做了 AlphaFold、Gemini 和大规模研究。

K

KV Cache

What people say: "让推理更快"
What it actually means: 自回归生成时，把之前 token 的 key 和 value 矩阵缓存起来，这样每一步就不用重算。拿内存换速度。快速 LLM 推理的关键。

L

Latent Space

What people say: "隐藏的表示"
What it actually means: 一个压缩过的、学出来的表示空间，相似的输入会映到相近的点。自编码器、VAE 和扩散模型都在潜在空间里干活。它比输入低维，但抓住了重要的结构。

Learning Rate

What people say: "AI 学得多快"
What it actually means: 一个标量，控制梯度下降时的步长。太高：越过最小值并发散。太低：收敛太慢或卡住。最重要的那个超参数。

LLM (Large Language Model)

What people say: "AI" 或 "大脑"
What it actually means: 一个基于 transformer 的神经网络，训练它去预测序列里的下一个 token，参数量上十亿，在互联网规模的文本数据上训练

LoRA (Low-Rank Adaptation)

What people say: "高效微调"
What it actually means: 不更新全部权重，而是在原权重旁边插入小的低秩矩阵。只训练这些小矩阵，把内存降低 10-100 倍

Loss Function

What people say: "AI 错得有多离谱"
What it actually means: 一个函数，衡量预测输出和真实输出之间的差距。训练就是最小化这个函数。回归用 MSE，分类用交叉熵，嵌入用对比损失。损失函数的选择定义了对模型来说什么叫"好"。

M

Mixed Precision

What people say: "提速的训练技巧"
What it actually means: 前向传播和大多数操作用 float16（更快、更省内存），但梯度累加和权重更新保留 float32（更精确）。能拿到 2 倍加速，精度损失可忽略。

MoE (Mixture of Experts)

What people say: "模型只跑一部分"
What it actually means: 一个有很多"专家"子网络的模型，路由机制把每个输入只送给少数几个专家。整个模型很大，但每次前向传播很便宜，因为大多数专家都被跳过了。Mixtral 和 GPT-4 用了这招。

MCP (Model Context Protocol)

What people say: "一种让 AI 用工具的方式"
What it actually means: 一个开放协议（基于 stdio/HTTP 的 JSON-RPC），标准化了 AI 应用怎么连接外部数据源和工具，对工具、资源和 prompt 都有带类型的 schema

N

NaN (Not a Number)

What people say: "训练崩了"
What it actually means: 一个浮点值，表示未定义的结果（0/0，inf-inf）。训练里出现 NaN 损失通常意味着：学习率太高、梯度爆炸、对零取对数、或除以零。训练失败时永远第一个该查的东西。

Normalization

What people say: "缩放数据"
What it actually means: 把值调到一个标准范围。批归一化在一个批内做归一化。层归一化跨特征做归一化。两者都能稳定训练，并允许更高的学习率。

O

Overfitting

What people say: "模型把数据背下来了"
What it actually means: 模型在训练数据上表现好，但在没见过的数据上表现差。它学的是噪声，不是信号。解法：更多数据、正则化（dropout、权重衰减）、提前停止、数据增强、更简单的模型。

Optimizer

What people say: "更新权重的那个东西"
What it actually means: 一种算法，用梯度来更新模型参数。SGD 最简单。Adam 最常用。每种优化器特性不同：收敛速度、内存占用、对超参数的敏感程度。

P

Parameter

What people say: "模型大小"
What it actually means: 模型里一个可学习的值，通常是权重或偏置。"7B 参数"就是 70 亿个可学习的数。每个 float32 参数占 4 字节，所以 7B 参数 = 光是权重就要 28GB 内存。

Perplexity

What people say: "模型有多懵"
What it actually means: 平均交叉熵损失的指数。越低越好。困惑度 10 意味着模型的不确定程度，相当于每一步都在 10 个 token 里均匀乱猜。

Precision & Recall

What people say: "准确率指标"
What it actually means: 精确率 = 你标出来的项里，有多少是对的。召回率 = 所有对的项里，你找到了多少。它们会权衡：抓住每一封垃圾邮件（高召回）意味着更多误报（低精确）。F1 分数是它俩的调和平均。误报代价高时看精确率，漏报代价高时看召回率。

Prompt Engineering

What people say: "用对的方式跟 AI 说话"
What it actually means: 设计输入文本，让它稳定地产出想要的输出——包括系统提示、少样本示例、格式说明和思维链触发语

Prompt Injection

What people say: "用文字黑掉 AI"
What it actually means: 一种攻击，输入里的恶意文本覆盖了系统提示或指令。直接注入：用户打"忽略之前的指令"。间接注入：检索到的文档里藏着指令。相当于 LLM 版的 SQL 注入。没有彻底的解法——防御靠多层的输入校验、输出过滤和权限隔离。

Q

QLoRA

What people say: "更省钱的 LoRA"
What it actually means: 量化版 LoRA。把冻结的基座模型权重保持在 4 bit 精度（NF4 格式），同时用 16 bit 训练 LoRA 适配器。比标准 LoRA 再省 3-4 倍内存。一个用 LoRA 要 14GB 的 7B 模型，用 QLoRA 在 4-6GB 里就装得下。质量在大多数基准上跟全量微调差不超过 1%。

R

RAG (Retrieval-Augmented Generation)

What people say: "能搜索的 AI"
What it actually means: 一种模式：你从知识库里检索相关文档（用嵌入相似度），把它们塞进 prompt，让 LLM 基于这个上下文来回答
Why it's called that: Retrieval (find documents) + Augmented (add to prompt) + Generation (LLM writes the answer)

RLHF (Reinforcement Learning from Human Feedback)

What people say: "他们怎么让 AI 变得有用的"
What it actually means: 一条训练流水线：(1) 收集人类对模型输出的偏好，(2) 在这些偏好上训练一个奖励模型，(3) 用 PPO 优化 LLM，让它产出更高奖励的输出

Quantization

What people say: "把模型变小"
What it actually means: 把模型权重的精度从 float32（4 字节）降到 int8（1 字节）或 int4（0.5 字节）。用一点点精度换 4-8 倍的内存节省和更快的推理。GPTQ、AWQ 和 GGUF 是常见格式。

ReLU

What people say: "激活函数"
What it actually means: 修正线性单元：f(x) = max(0, x)。最简单的非线性激活。算起来快，对正值不饱和。到处都在用，因为它管用又便宜。变体：LeakyReLU、GELU、SiLU。

ROUGE

What people say: "摘要指标"
What it actually means: Recall-Oriented Understudy for Gisting Evaluation。衡量生成文本和参考文本之间的重叠。ROUGE-1 数 unigram 命中，ROUGE-2 数 bigram 命中，ROUGE-L 找最长公共子序列。算起来便宜，但只衡量表面相似——两句意思相同但用词不同的话会得分很低。

S

Semantic Search

What people say: "懂含义的智能搜索"
What it actually means: 靠含义而非关键词匹配来找文档。把查询和所有文档嵌入到同一个向量空间，然后返回嵌入和查询嵌入最接近的文档。"payment failed" 能找到 "transaction declined"，哪怕它们一个词都不共享。由嵌入模型 + 向量数据库驱动。

Streaming

What people say: "看着回答一个词一个词蹦出来"
What it actually means: LLM 边生成边发送 token，而不是等整个回答完成。用服务器发送事件（SSE）或 WebSocket 协议。把首个 token 的感知延迟从几秒降到几毫秒。生产级聊天界面的必备。每个分块包含一个增量（部分 token 或词）。

Self-Attention

What people say: "模型怎么决定该关注什么"
What it actually means: 每个 token 算出 query、key 和 value 向量。两个 token 间的注意力权重 = 它们 query 和 key 的点积，缩放后过 softmax。输出 = value 向量的加权和。让每个 token 都能看到其他每个 token。

SFT (Supervised Fine-Tuning)

What people say: "教模型遵循指令"
What it actually means: 在（指令，回答）对上微调一个预训练模型。模型学会在给定指令时生成回答。这就是把基座模型变成聊天模型的过程。

Softmax

What people say: "把数字变成概率"
What it actually means: softmax(x_i) = exp(x_i) / sum(exp(x_j))。把一个任意实数向量变成一个概率分布（全为正，加起来等于 1）。用在分类头、注意力权重，以及任何需要概率的地方。

Swarm

What people say: "一群 AI 智能体像蜜蜂一样协同干活"
What it actually means: 多个智能体共享状态、通过消息传递来协调，涌现行为来自简单的个体规则，而非中央控制

T

System Prompt

What people say: "AI 的指令"
What it actually means: 对话开头的一条特殊消息，设定模型的行为、人设和约束。在用户消息之前处理。在大多数 UI 里对用户不可见。它定义模型该做什么、不该做什么、语气、格式偏好和领域聚焦。和用户提示不同——系统提示由开发者设定。

Tensor

What people say: "一个多维数组"
What it actually means: 深度学习框架里最基础的数据结构。0 维张量是标量，1 维是向量，2 维是矩阵，3 维及以上是张量。在 PyTorch 和 JAX 里，张量会追踪自己的计算历史以做自动微分，可以放在 CPU 或 GPU 上。神经网络的所有输入、输出、权重和梯度都是张量。

Token

What people say: "一个词"
What it actually means: 由分词器（比如 BPE）产出的子词单元（英文里通常 3-4 个字符）。"unbelievable" 可能是 3 个 token："un" + "believ" + "able"

Temperature

What people say: "创造力设置"
What it actually means: 一个标量，在 softmax 之前除 logits。Temperature=1 是默认。越高 = 分布越平 = 输出越随机。越低 = 分布越尖 = 越确定。Temperature=0 就是 argmax（永远挑最可能的 token）。

Transfer Learning

What people say: "用一个预训练模型"
What it actually means: 拿一个在某任务上训练好的模型，把它适配到另一个任务。早期层学到的是通用特征（边缘、句法模式），这些能迁移。只有后面的层需要特定任务的训练。这就是为什么你能把 BERT 微调到任何 NLP 任务上。

Transformer

What people say: "现代 AI 背后的那个架构"
What it actually means: 一种神经网络架构，用自注意力（让每个位置都能关注其他每个位置）而非循环来处理序列，从而实现大规模并行化
Why it's called that: It transforms input representations into output representations through attention layers

U

Underfitting

What people say: "模型没在学"
What it actually means: 模型太简单，抓不住数据里的模式。训练损失一直很高。解法：更多参数、更多层、更长训练、更少正则化、更好的特征。

V

VAE (Variational Autoencoder)

What people say: "一种生成模型"
What it actually means: 一种自编码器，通过逼迫编码器输出服从高斯分布来学出一个平滑的潜在空间。你可以从这个分布里采样并解码来生成新数据。重参数化技巧让它能通过反向传播训练。

Vector Database

What people say: "一种专给 AI 用的数据库"
What it actually means: 一种数据库，专门优化存储向量（稠密浮点数组）并做快速近似最近邻搜索。是相似度搜索、RAG 和推荐系统里的核心操作。

W

Weight

What people say: "模型学到的东西"
What it actually means: 模型参数矩阵里的一个数。一个输入大小 768、输出大小 3072 的线性层有 768*3072 = 2,359,296 个权重。训练就是调整每个权重去最小化损失函数。

Weight Decay

What people say: "正则化"
What it actually means: 往损失函数里加一个跟权重大小成正比的惩罚项。等价于 L2 正则化。防止权重涨得太大。典型值：0.01-0.1。

Z

Zero-Shot

What people say: "不用训练"
What it actually means: 把模型用在它没被明确训练过的任务上，prompt 里也没有特定任务的示例。模型靠预训练来泛化。之所以管用，是因为大模型见过的花样足够多，能应付新的任务格式。

⚡