Skip to content

Latest commit

 

History

History
221 lines (180 loc) · 8.86 KB

File metadata and controls

221 lines (180 loc) · 8.86 KB

机器学习基础 ✒️2

create date last modify

Keywords: 归纳偏置


基本术语

归纳偏置 (Inductive Bias)

学习算法在面对未知样本时, 为了做出预测而必须依赖的一组先验假设;

  • 定义
    • 在机器学习中, 归纳偏置 指的是学习算法在面对未知样本或在有限数据下学习时, 内置的结构性假设或先验倾向 (先验假设); 不同架构的偏置决定了它们更容易学习哪类模式.
  • 必要性:
    • "天下没有免费的午餐" 定理表明, 没有任何学习算法能在所有可能的任务上都表现最佳;
    • 因此, 算法必须对目标函数或数据分布做出某种偏好或限制, 才能在有限数据下实现泛化;
  • 类比:
    • 就像侦探破案时会优先考虑最可能的嫌疑人, 而不是所有人都查一遍;
    • 这种 "优先考虑" 的倾向, 就是归纳偏置;

作用

  • 缩小假设空间 (Hypothesis Space), 减少搜索范围;
  • 在有限样本下, 提高模型在新数据上的泛化能力;

示例

  • CNN (卷积神经网络) : 假设图像具有局部性平移不变性, 因此使用卷积核共享权重;
  • RNN (循环神经网络) : 假设序列数据具有时间顺序依赖, 因此在时间步上共享参数;
  • KNN (最近邻): 假设特征空间中相邻样本更可能属于同一类;
  • SVM (支持向量机): 假设最优分类边界应最大化间隔;

似然 (Likelihood)

在已经得到某些观测结果的前提下, 某个模型或参数为 的可能性大小;

TODO

再具体些

正则化 (Regularization)

通过引入额外的信息或约束, 来防止模型过于复杂, 从而缓解过拟合问题, 提高模型的泛化能力.

KL 散度 (Kullback–Leibler Divergence)

也叫 相对熵 (Relative Entropy), 用于衡量两个概率分布之间的差异.

  • 定义

    • 对于 离散分布 $P, Q$:

    • 对于 连续分布:

    其中 $P$ 通常表示真实分布, $Q$ 表示近似分布.

  • 直观解释:

    • KL 散度 衡量的是: 用分布 $Q$ 来近似分布 $P$ 时, 平均多消耗了多少信息量.
    • KL 散度越大, 说明 $Q$$P$ 的差异越大.
  • 重要性质:

    • 非负性: $D_{KL}(P \parallel Q) \geq 0$, 由 Gibbs 不等式保证;
    • 非对称性: $D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P)$;
    • 不满足三角不等式: 因此它不是严格意义上的 "距离";
    • 与交叉熵的关系: $D_{KL}(P \parallel Q) = H(P, Q) - H(P)$, 即交叉熵减去熵.

蒙特卡洛方法 (Monte Carlo Method)

一类 基于随机数抽样的数值计算方法, 核心思想是 用样本均值近似期望, 或者说 用频率逼近概率.

  • 基本过程:
    1. 构造概率模型;
    2. 从该分布随机抽样;
    3. 用样本均值逼近期望.
  • 收敛性:
    • 大数定律 保证收敛, 误差规模约为 $O(N^{-1/2})$.
  • 优点
    • 通用性强, 适合复杂问题
    • 易于实现, 适合并行计算
    • 能处理高维问题
  • 缺点
    • 收敛速度较慢
    • 需要大量随机数, 计算成本高
    • 精度依赖样本量

蒙特卡洛积分 (Monte Carlo Integration) 📌

通过把积分表示为某个随机变量的期望, 再用随机抽样来近似这个期望, 从而实现对积分的数值估计.

  • 形式表达:

    • 设我们要求解积分
    1. 构造概率分布:

      • 选择一个在区域 $\Omega$ 上定义的 概率密度函数 $p(x)$, 满足 $\int_\Omega p(x), dx = 1$;

        💡 如果 $p(x)$ 难以直接采样, 就需要使用其他 采样方法, 如 拒绝采样, 重要性采样, 马尔可夫链蒙特卡洛 (MCMC) 采样 等.

    2. 将积分改写为期望:

      • 如果 $p(x)$均匀分布, 则公式简化为最常见的蒙特卡洛积分形式:

        其中 $|\Omega| = \frac{1}{p(x)}$ 表示区域 $\Omega$ 的 "测度".

        如果 $\Omega$ 是一维区间 $\left\lbrack a,b\right\rbrack$, 则 $|\Omega| = b-a$;
        如果 $\Omega$ 是二维区域, 则 $|\Omega|$ 就是该区域的面积.

    3. 蒙特卡洛近似

      • $p(x)$ 独立采样 $N$ 个样本 $x_1,\dots,x_N$, 用样本均值近似期望:
  • 应用:


采样方法

重要性采样 (Importance Sampling, IS)

用一个容易采样的分布 $q(x)$, 去近似另一个目标分布 $p(x)$ 下的期望;

  • 数学形式:

    其中 $w(x) = \dfrac{p(x)}{q(x)}$重要性权重.

  • 优点:

    • 可以在不重新采样的情况下, 利用已有数据估计新分布下的期望;
  • 缺点:

    • 如果 $p(x)$$q(x)$ 差异过大, 权重 $w(x)$ 会非常不稳定, 导致 方差爆炸.

      这也是 PPO 等算法要对 $r_t(\theta)$ 做裁剪或正则化的原因.

拒绝采样 (Rejection Sampling)

一种 从复杂分布中生成样本 的方法, 尤其是目标分布 $p(x)$ 难以直接采样的情况.

  • 核心思想:
    • 先从一个容易采样的 建议分布 (proposal distribution) $q(x)$ 中采样;
    • 再通过一定的 接受–拒绝规则 来筛选样本, 使得最终保留下来的样本符合目标分布.

马尔可夫链蒙特卡洛采样 (MCMC Sampling)

TODO