机器学习基础 ✒️2
Keywords: 归纳偏置
学习算法在面对未知样本时, 为了做出预测而必须依赖的一组先验假设;
- 定义
- 在机器学习中, 归纳偏置 指的是学习算法在面对未知样本或在有限数据下学习时, 内置的结构性假设或先验倾向 (先验假设); 不同架构的偏置决定了它们更容易学习哪类模式.
- 必要性:
- "天下没有免费的午餐" 定理表明, 没有任何学习算法能在所有可能的任务上都表现最佳;
- 因此, 算法必须对目标函数或数据分布做出某种偏好或限制, 才能在有限数据下实现泛化;
- 类比:
- 就像侦探破案时会优先考虑最可能的嫌疑人, 而不是所有人都查一遍;
- 这种 "优先考虑" 的倾向, 就是归纳偏置;
作用
- 缩小假设空间 (Hypothesis Space), 减少搜索范围;
- 在有限样本下, 提高模型在新数据上的泛化能力;
示例
- CNN (卷积神经网络) : 假设图像具有局部性和平移不变性, 因此使用卷积核共享权重;
- RNN (循环神经网络) : 假设序列数据具有时间顺序依赖, 因此在时间步上共享参数;
- KNN (最近邻): 假设特征空间中相邻样本更可能属于同一类;
- SVM (支持向量机): 假设最优分类边界应最大化间隔;
在已经得到某些观测结果的前提下, 某个模型或参数为 真 的可能性大小;
再具体些
通过引入额外的信息或约束, 来防止模型过于复杂, 从而缓解过拟合问题, 提高模型的泛化能力.
也叫 相对熵 (Relative Entropy), 用于衡量两个概率分布之间的差异.
-
定义
-
对于 离散分布
$P, Q$ : -
对于 连续分布:
其中
$P$ 通常表示真实分布,$Q$ 表示近似分布. -
-
直观解释:
-
KL 散度 衡量的是: 用分布
$Q$ 来近似分布$P$ 时, 平均多消耗了多少信息量. - KL 散度越大, 说明
$Q$ 与$P$ 的差异越大.
-
KL 散度 衡量的是: 用分布
-
重要性质:
-
非负性:
$D_{KL}(P \parallel Q) \geq 0$ , 由 Gibbs 不等式保证; -
非对称性:
$D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P)$ ; - 不满足三角不等式: 因此它不是严格意义上的 "距离";
-
与交叉熵的关系:
$D_{KL}(P \parallel Q) = H(P, Q) - H(P)$ , 即交叉熵减去熵.
-
非负性:
一类 基于随机数抽样的数值计算方法, 核心思想是 用样本均值近似期望, 或者说 用频率逼近概率.
-
基本过程:
- 构造概率模型;
- 从该分布随机抽样;
- 用样本均值逼近期望.
-
收敛性:
- 由 大数定律 保证收敛, 误差规模约为
$O(N^{-1/2})$ .
- 由 大数定律 保证收敛, 误差规模约为
-
优点
- 通用性强, 适合复杂问题
- 易于实现, 适合并行计算
- 能处理高维问题
-
缺点
- 收敛速度较慢
- 需要大量随机数, 计算成本高
- 精度依赖样本量
通过把积分表示为某个随机变量的期望, 再用随机抽样来近似这个期望, 从而实现对积分的数值估计.
-
形式表达:
- 设我们要求解积分
-
构造概率分布:
- 选择一个在区域
$\Omega$ 上定义的 概率密度函数$p(x)$ , 满足$\int_\Omega p(x), dx = 1$ ;💡 如果
$p(x)$ 难以直接采样, 就需要使用其他 采样方法, 如 拒绝采样, 重要性采样, 马尔可夫链蒙特卡洛 (MCMC) 采样 等.
- 选择一个在区域
-
将积分改写为期望:
-
如果
$p(x)$ 取 均匀分布, 则公式简化为最常见的蒙特卡洛积分形式:其中
$|\Omega| = \frac{1}{p(x)}$ 表示区域$\Omega$ 的 "测度".如果
$\Omega$ 是一维区间$\left\lbrack a,b\right\rbrack$ , 则$|\Omega| = b-a$ ;
如果$\Omega$ 是二维区域, 则$|\Omega|$ 就是该区域的面积.
-
-
蒙特卡洛近似
- 从
$p(x)$ 独立采样$N$ 个样本$x_1,\dots,x_N$ , 用样本均值近似期望:
- 从
-
应用:
用一个容易采样的分布
$q(x)$ , 去近似另一个目标分布$p(x)$ 下的期望;
-
数学形式:
其中
$w(x) = \dfrac{p(x)}{q(x)}$ 为 重要性权重. -
优点:
- 可以在不重新采样的情况下, 利用已有数据估计新分布下的期望;
-
缺点:
-
如果
$p(x)$ 和$q(x)$ 差异过大, 权重$w(x)$ 会非常不稳定, 导致 方差爆炸.这也是 PPO 等算法要对
$r_t(\theta)$ 做裁剪或正则化的原因.
-
如果
一种 从复杂分布中生成样本 的方法, 尤其是目标分布
$p(x)$ 难以直接采样的情况.
-
核心思想:
- 先从一个容易采样的 建议分布 (proposal distribution)
$q(x)$ 中采样; - 再通过一定的 接受–拒绝规则 来筛选样本, 使得最终保留下来的样本符合目标分布.
- 先从一个容易采样的 建议分布 (proposal distribution)