Skip to content

Latest commit

 

History

History
359 lines (277 loc) · 10.5 KB

File metadata and controls

359 lines (277 loc) · 10.5 KB

统计基础

平均数(Mean)

定义 :所有数据点的总和除以数据点的数量。 计算公式 : $$ \mu = \frac{1}{n} \sum_{i=1}^{n} x_i $$ 意义 :反映数据的中心趋势,是数据的"平均值"。

方差(Variance)

定义 :数据点与平均数的差的平方的平均值。 计算公式 : $$ \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 $$ 意义 :反映数据的离散程度,越大表示数据越分散.

标准差(Standard Deviation)

定义 :方差的平方根。 计算公式 : $$ \sigma = \sqrt{\sigma^2} $$ 意义 :同样反映数据的离散程度,单位与原始数据相同,更直观。

协方差(Covariance)

协方差 是衡量两个随机变量之间线性关系强度和方向的统计量。度量的是维度和维度之间的关系。 对于两个随机变量X和Y,协方差的计算公式为: $$ \text{Cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \mu_X)(y_i - \mu_Y) $$

  • n是观测值的数量(使用n-1是为了无偏估计)
  • 正值: 两个变量同向变化(一个增加,另一个也增加)
  • 负值: 两个变量反向变化(一个增加,另一个减少)
  • 接近0: 两个变量之间线性关系较弱
  • 为0: 说明两者的关系就是统计学上的"互相独立"

协方差矩阵

对于多个变量,协方差可以组成一个 协方差矩阵 : $$ \Sigma = \begin{bmatrix} \text{Cov}(X_1, X_1) & \cdots & \text{Cov}(X_1, X_p) \ \vdots & \ddots & \vdots \ \text{Cov}(X_p, X_1) & \cdots & \text{Cov}(X_p, X_p) \end{bmatrix} $$ 其中:

  • 对角线元素是各变量的方差
  • 非对角线元素是变量之间(i,j)的协方差
  • 矩阵是对称的,即 $\text{Cov}(X_i, X_j) = \text{Cov}(X_j, X_i)$

用于降维和数据可视化

微积分

导数

导数描述了自变量的微小变化导致因变量微小变化的关系.即函数在某一点函数值的增量与自变量的增量的比值.

当 x 在 a 点附近变化一个很小的量 Δx时, 函数值的变化可以用线性函数近似:

$$ f(a+\Delta x) = f(a) + k⋅\Delta x $$

k⋅Δx 即线性变化的部分, k即线性变化的斜率即导数.

数学定义:

$$ k = f'(a) = \lim_{\Delta x \to 0} \frac{f(a+\Delta x) - f(a)}{\Delta x} $$

证明:

$$ \boxed{\frac{d}{dx}x^n = nx^{n-1}} $$

  • 步骤 1:利用因式分解公式

$$ a^n - b^n = (a-b)(a^{n-1} + a^{n-2}b + a^{n-3}b^2 + \cdots + ab^{n-2} + b^{n-1}) $$

  • 步骤 2:应用于 $(x+h)^n - x^n$$a = x+h$, $b = x$ , 则:

$$ (x+h)^n - x^n = h \cdot \left[ (x+h)^{n-1} + (x+h)^{n-2}x + (x+h)^{n-3}x^2 + \cdots + (x+h)x^{n-2} + x^{n-1} \right] $$

  • 步骤 3:代入导数定义

$$ \frac{d}{dx}x^n = \lim_{h \to 0} \frac{(x+h)^n - x^n}{h} $$

$$ = \lim_{h \to 0} \frac{h \cdot \left[ (x+h)^{n-1} + (x+h)^{n-2}x + \cdots + x^{n-1} \right]}{h} $$

$$ = \lim_{h \to 0} \left[ (x+h)^{n-1} + (x+h)^{n-2}x + \cdots + x^{n-1} \right] $$

  • 步骤 4:取极限(令 $h \to 0$

$$ = \underbrace{x^{n-1} + x^{n-1} + \cdots + x^{n-1}}_{n \text{ 项}} $$ $$ = nx^{n-1} $$


  • 三角函数

$$ d(sinx)/dx = cosx $$

  • 加法法则: 基本函数相加形成的复合函数导数等于基本函数导数之和

$$ d(u+v)/dx = d(u)/dx + d(v)/dx $$

  • 乘法法则: 前导后不导加上后导前不导

$$ d(uv)/dx = u\cdot d(v)/dx + v\cdot d(u)/dx $$

  • 链式法则:外层导数与内层导数依次相乘

$$ \frac{d}{dx}u(v(x)) = u'(v(x)) \cdot v'(x) $$

  • 指数函数

$$ d(e^x)/dx = e^x $$

偏导

保持其他变量固定而关注一个变量的微小变化带来的函数值变化情况, 这种变化的比值就是偏导数. 数学定义:

$$ \frac{\partial f}{\partial x_i} = \lim_{\Delta x_i \to 0} \frac{f(x_1, x_2, \ldots, x_i + \Delta x_i, \ldots, x_n) - f(x_1, x_2, \ldots, x_i, \ldots, x_n)}{\Delta x_i} $$

梯度

梯度是一个向量, 其方向指向函数值增加最快的方向, 长度表示在该方向上的变化率. 数学定义:

$$ \nabla f = \left[ \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \ldots, \frac{\partial f}{\partial x_n} \right] $$

微积分

表示所有的微小量累加起来的结果.

如果函数 $f(x)$ 在区间 $[a, b]$ 上连续, 并且存在原函数 $F(x)$(即 $F'(x) = f(x)$), 则:

$$ \int_a^b f(x)dx = F(b) - F(a) $$ 等价于 $$ \int_a^b F'(x)dx = F(b) - F(a) $$

泰勒公式

泰勒公式是一种将函数表示为多项式的方法. 它的基本思想是, 在一个点 $x=a$ 附近, 函数可以用一个多项式来近似.

泰勒公式的微积分基本定理推导

泰勒公式本质上是微积分基本定理连续累加的结果.

微积分基本定理

微积分基本定理采用定积分来展示函数 $F(x)$ 与它的导数之间的关系, 即:

$$ \int_a^b F'(x)dx = F(b) - F(a) $$

也就是说, 已知 $F(x)$ 可以求解 $F'(x)$ 的定积分.

变量代换与一阶展开

假设 $a$ 为定值, 且 $b - a = h$, 则上面的微积分基本定理可以写成:

$$ F(a+h) = F(a) + \int_a^{a+h} F'(x)dx $$

意义是:函数在$a + h$处的值等于其在$a$处的值加上导数从$a$ 到$a + h$的积分 。

  • $x = a + t$, 其中 $t$ 是新的积分变量, $a$是常数
  • $x = a$ 时, $t = 0$ (积分下限)
  • $x = a + h$ 时, $t = h$ (积分上限)
  • 微分: $dx = dt$ (对新变量 $t$ 的微分)

代入后得:

$$ F(a+h) = F(a) + \int_0^h F'(a+t)dt $$

二阶展开

如果 $F'(x)$ 是连续可导函数, 那么对 $F'(a+t)$ 应用微积分基本定理:

$$ F'(a+t) = F'(a) + \int_0^t F''(a+t_1)dt_1 $$

将其代入一阶展开式:

$$ \begin{aligned} F(a+h) &= F(a) + \int_0^h \left[ F'(a) + \int_0^t F''(a+t_1)dt_1 \right] dt \\ &= F(a) + F'(a)\int_0^h dt + \int_0^h \int_0^t F''(a+t_1)dt_1 dt \\ &= F(a) + F'(a)h + \int_0^h \int_0^t F''(a+t_1)dt_1 dt \end{aligned} $$

n阶展开(泰勒公式)

重复上述过程, 对 $F''(a+t_1)$ 再次应用微积分基本定理:

$$ F''(a+t_1) = F''(a) + \int_0^{t_1} F'''(a+t_2)dt_2 $$

代入后得到三阶项, 以此类推, 经过 $n$ 次迭代后, 可得:

$$ F(a+h) = \sum_{k=0}^n \frac{F^{(k)}(a)}{k!}h^k + R_n(h) $$

其中余项为:

$$ R_n(h) = \int_0^h \int_0^{t_{n-1}} \cdots \int_0^{t_1} F^{(n+1)}(a+t_n)dt_n \cdots dt_1 $$

结论

通过微积分基本定理的多次连用, 我们成功推导出了泰勒公式.这说明泰勒公式本质上是微积分基本定理的连续累加结果, 两者在数学上具有统一性.

$$ \boxed{F(a+h) = \sum_{k=0}^n \frac{F^{(k)}(a)}{k!}h^k + \int_0^h \int_0^{t_{n-1}} \cdots \int_0^{t_1} F^{(n+1)}(a+t_n)dt_n \cdots dt_1} $$

意义

  • 理论统一:泰勒公式与微积分基本定理本质上是一致的, 前者是后者的多次应用
  • 数值计算:通过多项式近似和积分余项, 可以精确计算函数值
  • 误差分析:积分余项提供了误差的定量估计, 为数值方法奠定基础

线性代数

TODO

概率论

概率为零的事件未必就是不可能事件,概率为1的事件也未必就是必然事件。

条件概率

$$ P(A|B)=\frac{P(AB)}{P(B)} $$

即B发生的概率作为A发生的概率的样本空间,AB同时发生的概率。

全概率公式

$$ P(B)=\sum_{i=1}^n P(A_i)P(B|A_i) $$

$B_0,$ $B_1,$...$B_n$ 是事件 $B$ 的一个完备事件组, 即 $B_i$$B_j$ 是互斥事件, 且 $\bigcup_{i=1}^n B_i = B$.

贝叶斯公式

$$ P(A_i|B) = \frac{P(B|A_i)P(A_i)}{\sum_{i=1}^n P(A_i)P(B|A_i)} $$ 由全概率公式和条件概率公式, 可以推导出贝叶斯公式: $$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} = P(A)\frac{P(B|A)}{P(B)} $$

  • 用新信息修正原有看法
  • 后验概率 = 先验概率 × 可能性
  • $P(A)$: 事件A发生的概率, 也称为先验概率
  • $P(B|A)$: 客观,实际B发生的概率,也称似然度
  • $P(B)$: 事件B发生的概率,全概率公式, 也称归一化常量
  • $P(A|B)$: 事件B发生的条件下事件A实际发生的概率, 也称为后验概率
  • $\frac{P(B|A)}{P(B)}$ 是一个调整因子,用于将先验概率P(A)更新为后验概率P(A∣B). 是新证据B对假设A的支持权重.
一袋中共装有10个球,分别为红球和白球,但是每种颜色的球有几个不是很明确,有下列三种可能:
A1:可能是装有6个红球,4个白球;
A2:也可能是装有7个红球,3个白球;
A3:还可能是装有5个红球,5个白球.
开始认为这三种可能性分别为:
P(A1)=1/6 , P(A2) = 1/3, P(A3) = 1/2.

于是我们从这个袋中任取一球,得到了红球,此时我们应该怎么来修正自己的看法呢?

已知信息

  • 三种假设 :
    • A1 :6个红球,4个白球
    • A2 :7个红球,3个白球
    • A3 :5个红球,5个白球
  • 先验概率 :
    • P(A1) = 1/6
    • P(A2) = 1/3
    • P(A3) = 1/2
  • 事件:B = 抽到红球

目标

计算观察到红球后, 三种假设的后验概率 $P(A_i|B)$ .

解答步骤

1. 计算似然度 $P(B|A_i)$

  • $P(B|A1) = \frac{6}{10}$
  • $P(B|A2) = \frac{7}{10}$
  • $P(B|A3) = \frac{5}{10}$

2. 计算证据概率 $P(B)$ (全概率公式)

$$ \begin{align*} P(B) &= P(B|A_1)P(A_1) + P(B|A_2)P(A_2) + P(B|A_3)P(A_3) \\ &= \frac{3}{5} \times \frac{1}{6} + \frac{7}{10} \times \frac{1}{3} + \frac{1}{2} \times \frac{1}{2} = \frac{7}{12} \end{align*} $$

3. 计算调整因子

  • $\frac{P(B|A_1)}{P(B)} = {\frac{3}{5}}/{\frac{7}{12}} = \frac{36}{35}$
  • $\frac{P(B|A_2)}{P(B)} = {\frac{7}{10}}/{\frac{7}{12}} = \frac{6}{5}$
  • $\frac{P(B|A_3)}{P(B)} = {\frac{1}{2}}/{\frac{7}{12}} = \frac{6}{7}$

4. 调整因子分析

  • A1的调整因子: 36/35 > 1, 证据轻微支持
  • A2的调整因子: 6/5 > 1, 证据支持
  • A3的调整因子: 7/6 < 1, 证据反对

5. 计算后验概率(贝叶斯公式)

$$ P(A_i|B) = \frac{P(B|A_i)P(A_i)}{P(B)} \\ = P(A_i)\frac{P(B|A_i)}{P(B)} \\ = P(A_i) \times \text{调整因子} $$

  • $P(A_1|B) = \frac{1}{6} \times \frac{36}{35} = \frac{36}{210} = \frac{6}{35}$
  • $P(A_2|B) = \frac{1}{3} \times \frac{6}{5} = \frac{6}{15} = \frac{2}{5}$
  • $P(A_3|B) = \frac{1}{2} \times \frac{6}{7} = \frac{6}{14} = \frac{3}{7}$

6. 结论

抽到红球后,倾向于认为袋子中可能是7个红球3个白球($A_2$)或5个红球5个白球($A_3$).

  • 证据的影响程度可量化: 通过调整因子的大小,可以精确评估证据对不同假设的影响
  • 信念更新是理性的过程: 提供了一种系统、数学化的方法来根据新信息调整我们的信念
  • 概率反映的是置信度: 后验概率不是绝对的“是”或“否”,而是对不同假设的置信程度

这种基于证据的信念更新机制,正是贝叶斯方法在机器学习、统计学、决策分析等领域广泛应用的原因,它体现了科学推理中“用数据说话”的核心原则