机器学习基础 ✒️²

Keywords: 归纳偏置

基本术语
采样方法

基本术语

归纳偏置 (Inductive Bias)

学习算法在面对未知样本时, 为了做出预测而必须依赖的一组先验假设;

定义
- 在机器学习中, 归纳偏置 指的是学习算法在面对未知样本或在有限数据下学习时, 内置的结构性假设或先验倾向 (先验假设); 不同架构的偏置决定了它们更容易学习哪类模式.
必要性:
- "天下没有免费的午餐" 定理表明, 没有任何学习算法能在所有可能的任务上都表现最佳;
- 因此, 算法必须对目标函数或数据分布做出某种偏好或限制, 才能在有限数据下实现泛化;
类比:
- 就像侦探破案时会优先考虑最可能的嫌疑人, 而不是所有人都查一遍;
- 这种 "优先考虑" 的倾向, 就是归纳偏置;

作用

缩小假设空间 (Hypothesis Space), 减少搜索范围;
在有限样本下, 提高模型在新数据上的泛化能力;

示例

CNN (卷积神经网络) : 假设图像具有局部性和平移不变性, 因此使用卷积核共享权重;
RNN (循环神经网络) : 假设序列数据具有时间顺序依赖, 因此在时间步上共享参数;
KNN (最近邻): 假设特征空间中相邻样本更可能属于同一类;
SVM (支持向量机): 假设最优分类边界应最大化间隔;

似然 (Likelihood)

在已经得到某些观测结果的前提下, 某个模型或参数为真的可能性大小;

TODO

再具体些

正则化 (Regularization)

通过引入额外的信息或约束, 来防止模型过于复杂, 从而缓解过拟合问题, 提高模型的泛化能力.

KL 散度 (Kullback–Leibler Divergence)

也叫 相对熵 (Relative Entropy), 用于衡量两个概率分布之间的差异.

定义
- 对于 离散分布 $P, Q$:
- 对于 连续分布:
其中 $P$ 通常表示真实分布, $Q$ 表示近似分布.
直观解释:
- KL 散度 衡量的是: 用分布 $Q$ 来近似分布 $P$ 时, 平均多消耗了多少信息量.
- KL 散度越大, 说明 $Q$ 与 $P$ 的差异越大.
重要性质:
- 非负性: $D_{KL}(P \parallel Q) \geq 0$, 由 Gibbs 不等式保证;
- 非对称性: $D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P)$;
- 不满足三角不等式: 因此它不是严格意义上的 "距离";
- 与交叉熵的关系: $D_{KL}(P \parallel Q) = H(P, Q) - H(P)$, 即交叉熵减去熵.

蒙特卡洛方法 (Monte Carlo Method)

一类 基于随机数抽样的数值计算方法, 核心思想是 用样本均值近似期望, 或者说 用频率逼近概率.

基本过程:
1. 构造概率模型;
2. 从该分布随机抽样;
3. 用样本均值逼近期望.
收敛性:
- 由 大数定律 保证收敛, 误差规模约为 $O(N^{-1/2})$.
优点
- 通用性强, 适合复杂问题
- 易于实现, 适合并行计算
- 能处理高维问题
缺点
- 收敛速度较慢
- 需要大量随机数, 计算成本高
- 精度依赖样本量

蒙特卡洛积分 (Monte Carlo Integration) 📌

通过把积分表示为某个随机变量的期望, 再用随机抽样来近似这个期望, 从而实现对积分的数值估计.

形式表达:
- 设我们要求解积分
1. 构造概率分布:
  - 选择一个在区域 $\Omega$ 上定义的 概率密度函数 $p(x)$, 满足 $\int_\Omega p(x), dx = 1$;
    
    💡 如果 $p(x)$ 难以直接采样, 就需要使用其他 采样方法, 如拒绝采样, 重要性采样, 马尔可夫链蒙特卡洛 (MCMC) 采样等.
2. 将积分改写为期望:
  - 如果 $p(x)$ 取 均匀分布, 则公式简化为最常见的蒙特卡洛积分形式:
    
    其中 $|\Omega| = \frac{1}{p(x)}$ 表示区域 $\Omega$ 的 "测度".
    
    如果 $\Omega$ 是一维区间 $\left\lbrack a,b\right\rbrack$, 则 $|\Omega| = b-a$;
    如果 $\Omega$ 是二维区域, 则 $|\Omega|$ 就是该区域的面积.
3. 蒙特卡洛近似
  - 从 $p(x)$ 独立采样 $N$ 个样本 $x_1,\dots,x_N$, 用样本均值近似期望:
应用:
- 策略梯度定理

采样方法

重要性采样 (Importance Sampling, IS)

用一个容易采样的分布 $q(x)$, 去近似另一个目标分布 $p(x)$ 下的期望;

数学形式:

其中 $w(x) = \dfrac{p(x)}{q(x)}$ 为 重要性权重.
优点:
- 可以在不重新采样的情况下, 利用已有数据估计新分布下的期望;
缺点:
- 如果 $p(x)$ 和 $q(x)$ 差异过大, 权重 $w(x)$ 会非常不稳定, 导致 方差爆炸.
  
  这也是 PPO 等算法要对 $r_t(\theta)$ 做裁剪或正则化的原因.

拒绝采样 (Rejection Sampling)

一种 从复杂分布中生成样本 的方法, 尤其是目标分布 $p(x)$ 难以直接采样的情况.

核心思想:
- 先从一个容易采样的建议分布 (proposal distribution) $q(x)$ 中采样;
- 再通过一定的 接受–拒绝规则 来筛选样本, 使得最终保留下来的样本符合目标分布.

马尔可夫链蒙特卡洛采样 (MCMC Sampling)

TODO

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

机器学习基础 ✒️²

基本术语

归纳偏置 (Inductive Bias)

似然 (Likelihood)

TODO

正则化 (Regularization)

KL 散度 (Kullback–Leibler Divergence)

蒙特卡洛方法 (Monte Carlo Method)

蒙特卡洛积分 (Monte Carlo Integration) 📌

采样方法

重要性采样 (Importance Sampling, IS)

拒绝采样 (Rejection Sampling)

马尔可夫链蒙特卡洛采样 (MCMC Sampling)

TODO

FilesExpand file tree

机器学习基础.md

Latest commit

History

机器学习基础.md

File metadata and controls

机器学习基础 ✒️2

基本术语

归纳偏置 (Inductive Bias)

似然 (Likelihood)

TODO

正则化 (Regularization)

KL 散度 (Kullback–Leibler Divergence)

蒙特卡洛方法 (Monte Carlo Method)

蒙特卡洛积分 (Monte Carlo Integration) 📌

采样方法

重要性采样 (Importance Sampling, IS)

拒绝采样 (Rejection Sampling)

马尔可夫链蒙特卡洛采样 (MCMC Sampling)

TODO

机器学习基础 ✒️²