0%

白板推导 - 机器学习 (数学基础)

1. 频率派 vs 贝叶斯派

数据: $X = (x_1, x_2, …, x_n)^T_{N \times p}$ 参数: $\theta$

  • 频率派: $\theta$ 是未知参数,$X$ 是随机变量(r.v.)

    MLE: $\theta = \argmax_{\theta} P(X | \theta)$

    引申为统计机器学习,构造 loss function. 进行梯度下降法等参数优化训练

  • 贝叶斯派:$\theta$ 为 r.v., 且具有先验分布 $\theta \sim P(\theta)$

    MAP: $\theta = \argmax_{\theta} P(\theta | X) = \argmax_{\theta} P(X|\theta)\cdot P(\theta)$

    贝叶斯估计:$P(\theta | X) = \frac{P(X | \theta)P(\theta)}{\int_{\theta}P(X|\theta)P(\theta) d\theta}$

    贝叶斯预测:给定观测 $\hat{x}$, $P(\hat{x}|X) = \int_{\theta}P(\hat{x},\theta|X) = \int_{\theta}P(\hat{x}|\theta)P(\theta|X) d\theta$

    引申为概率图模型,求积分, MCMC(蒙特卡洛采样)

2. 高斯分布 - 极大似然估计

数据:$X = (x_1, …, x_n)^T_{N \times p}, x_i \in {R^p}$ $x_i \sim N(\mu, \xi)$ 其样本之间独立同分布,$\theta = (\mu, \xi)$。

假设 $p = 1$, $\theta = (\mu, \delta^2)$

一维高斯分布: $P(x|\theta) = \frac{exp(-\frac{(x-\mu)^2}{2\delta^2})}{\sqrt{2\pi}\delta}$

p 维高斯分布:$P(x|\theta) = \frac{exp(-\frac{1}{2}(x-\mu)^T\xi^{-1}(x-\mu)}{(2\pi)^{\frac{p}{2}}|\xi|^{\frac{1}{2}}}$

  • 公式推导:
    MLE: $$\theta = \argmax_\theta P(X | \theta)$$
    $$logP(X|\theta) = log\prod P(x_i|\theta) = \sum_{i=1}^N log P(x_i|\theta) $$
    $$ = \sum_{i=1}^N log \frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(x_i-\mu)^2}{2\delta^2})$$
    $$ = \sum_{i=1}^N log\frac{1}{\sqrt{2\pi}}+log\frac{1}{\delta}-\frac{(x_i-\mu)^2}{2\delta^2}$$

    极大似然估计求导,得到参数估计:
    $${\mu}{mle} = \argmax{\mu} P(X|\theta)$$
    $$= \argmax_{\mu} \sum_{i=1}^N - \frac{(x_i - \mu)^2}{2\delta^2}$$
    $$= \argmin_{\mu} \sum_{i=1}^N {(x_i - \mu)^2}$$

    $$\frac{\partial\sum(x-\mu)^2}{\partial\mu}=0 \to \mu_{mle} = \frac{1}{N}\sum x_i$$

    $$\frac{\partial\sum(-log\delta-\frac{1}{2\delta^2}(x_i-\mu)^2)}{\partial\delta} = \sum_{i=1}^N[-\frac{1}{\delta}+(x_i-\mu)^2\delta^{-3}] = 0$$
    $$\delta_{mle}^2 = \frac{1}{N}\sum_{i=1}^N(x_i - \mu_{mle})^2$$

3. 高斯分布 - 极大似然估计(有偏 vs 无偏)

无偏的定义: 对于给定参数 $\theta$, 从实际数据得到的估计值 $\hat{\theta}$, 如何 $E(\hat{\theta}) = \theta$, 那么就是无偏的,否则有偏。

  • $E(\mu_{mle}) = E[\frac{1}{N}\sum_{i=1}^N x_i] = \frac{1}{N}\sum_{i=1}^N E[x_i] = \mu$ 无偏

  • $$E[\delta_{mle}^2] = E[\frac{1}{N}\sum_{i=1}^N(x_i-\mu_{mle})^2]$$
    $$ = E[\frac{1}{N}\sum_{i=1}^N(x_i^2 - 2x_i\mu_{mle} + \mu_{mle}^2)]$$
    $$ = E[\frac{1}{N}\sum_{i=1}^N (x_i^2 - \mu_{mle}^2)]$$
    $$ = E[\frac{1}{N}\sum_{i=1}^N(x_i^2-\mu^2)] + E[\frac{1}{N}\sum_{i=1}^N(\mu_{mle}-\mu^2)]$$
    $$ = E[\frac{1}{N}\sum_{i=1}^N\delta^2] - Var(\mu_{mle}) {即为 \frac{1}{N}\delta^2} = \frac{N-1}{N}\delta^2$$
    所以 $\delta_{mle}^2$ 是有偏的。

4. 高斯分布 - 从概率密度角度观察

  • $X \sim N(\mu, \Sigma), P(x) = \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}} exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))$, $\Sigma$ 是正定的

  • $(x-\mu)^T\Sigma^{-1}(x-\mu)$: 表示马氏距离,其中当 $\Sigma = I$ 是,马氏距离即为欧氏距离。

  • $\Sigma = U\wedge U^T$ 其中 $UU^T=U^TU=I$, $\wedge = diag(\lambda_i)$, $U=(u_1,…,u_p)_{p\times p}$

  • $\Delta = (x-\mu)^T\Sigma^{-1}(x-\mu) = \sum_{i=1}^p\frac{y_i^2}{\lambda_i^2}$, 其中 $y_i = (x-\mu)^Tu_i$

5. 高斯分布 - 局限性

  • $\Sigma_{p\times p} \to \frac{p^2 - p}{2} \to 参数个数 O(p^2)$

  • 参数个数,改进为假设 $Sigma = diag(\lambda_1, …, \lambda_p)$ 为对角矩阵

  • 参数问题,假设模型为多个高斯模型的混合 GMM.

6. 高斯分布 - 求边缘概率和条件概率

7. 线性回归 - 最小二乘法及其几何意义

给定数据集合 $D = {(x_1, y_1), (x_2, y_2), …, (x_N, y_N))}$, $x_i \in R^P$, $y_i \in R$
$X = (x_1, x_2, …, x_N)^T, X \in R^{N \times p}$

  • 公式: $$L(w) = \sum_{i=1}^N ||w^T x_i - y_i||^2$$
       $$=\sum_{i=1}^N (w^T x_i - y_i)^2$$
       $$=(W^T X^T - Y^T)(XW - Y)$$
       $$=W^TX^TXW - 2W^TX^TY + Y^TT$$
       $$=W^TX^TXW - 2W^TX^TY$$
    
    $\hat{W} = \argmin{L(W)} \to \frac{\partial{L(W)}}{\partial{W}} = 2X^TXW - 2X^TY = 0$ 即 $W = (X^TX)^{-1}X^TY$

8. 线性回归 - 概率视角 -MLE- 高斯噪声

假设模型拟合存在噪声 $\varepsilon \sim N(0, \delta^2)$, 样本之间独立同分布。
$y = f(w) + \varepsilon = w^Tx + \varepsilon$

则 $y|x,w \sim N(W^Tx, \delta^2)$
$$P(y|x; w) = \frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(y-w^Tx)^2}{2\delta^2})$$

  • MLE:
    $$L(w) = logP(Y|X; w) = \sum_{i=1}^NlogP(y_i|x_i; w)$$
    $$ = \sum_{i=1}^N log\frac{1}{\sqrt{2\pi}\delta} - \frac{1}{2\delta^2}(y_i-w^Tx_i)^2$$

    即 $$\hat{w} = \argmax_w L(w)$$
    $$= \argmax_w - \frac{1}{2\delta^2}(y_i-w^Tx_i)^2$$
    $$= \argmin_w (y_i-w^Tx_i)^2$$

    即得到最小二乘的公式

9. 线性回归 - 正则化 - 岭回归 - 频率角度

正则化框架: $\argmin_w L(w) + \lambda P(w)$

  • L1: Lasso, $P(w) = ||w||_1$

  • L2: Ridge, 岭回归, $P(w) = ||w||_2^2 = w^Tw$。 权值衰减

加上 L2 正则的损失函数:
$$J(W) = \sum_{i=1}^N ||W^Tx_i - y_i||^2 + \lambda W^TW$$
$$ = (W^TX^T - Y^T)(XW - Y) + \lambda W^TW$$
$$ = W^T (X^TX + \lambda I) W - 2W^TX^TY + Y^TY$$
求导等于 0 $\hat{W} = \argmin J(W) \to \hat{W} = (X^TX+\lambda I)^{-1}X^TY$

10. 线性回归 - 正则化 - 岭回归 - 贝叶斯角度

  • LSE(最小二乘估计) = MLE (噪声为高斯分布的 极大似然估计)

  • Regulariezed LSE (加入正则化的最小二乘估计) = MAP (噪声和先验都是高斯分布的最大后验估计)

噪声为高斯分布的线性回归:
$$f(w) = w^Tx$$
$$y = f(w) + \varepsilon = w^Tx+\varepsilon$$
$$\varepsilon \sim N(0, \delta^2)$$
$$y|x;w \sim N(w^Tx, \delta^2)$$
$$P(y|x;w) = \frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(y-w^Tx)^2}{2\delta^2})$$

贝叶斯角度:假设先验参数也是服从高斯分布 $w \sim N(0, \delta_0^2)$
$$P(w|y) = \frac{P(y|w)P(w)}{P(y)}$$

MAP: $$\hat{w} = \argmax_w P(w|y)$$
$$= \argmax P(y|w)P(w)$$
$$= \argmax \sum_{i=1}^N log[P(y|w)P(w)]$$
$$= \argmax \sum_{i=1}^N log\frac{1}{\sqrt{2\pi}\delta \sqrt{2\pi}\delta_0^2} + log exp(-\frac{(y-w^Tx)^2}{2\delta^2} - \frac{||w||^2}{2\delta_0^2})$$
$$= \argmin_w(\frac{(y-w^Tx)^2}{2\delta^2} + \frac{||w||^2}{2\delta_0^2})$$
$$= \argmin_w((y-w^Tx)^2 + \frac{\delta^2}{\delta_0^2}||w||^2)$$
即为 带正则化的最小二乘估计。

坚持原创技术分享,您的支持将鼓励我继续创作!