0%

白板推导 - 机器学习 - 指数族分布

1. 指数族分布 - 背景

  • 具有的性质:充分统计量; 共轭; 最大熵原理(无信息先验)

  • 定义: $P(x|\eta) = h(x) exp(\eta^T \phi(x) - A(\eta))$

    $\eta$: 参数向量, $x \in R^p$

    $A(\eta)$: log partition function (对数配分函数)

    $\phi(x)$: 充分统计量 (online learning)

2. 指数族分布 - 高斯分布的指数族形式

  • 高斯分布: $P(x|\theta) = \frac{1}{\sqrt{2\pi}\delta} exp(-\frac{(x-\mu)^2}{2\delta^2})$
    $$P(x|\theta) = \frac{1}{\sqrt{2\pi}\delta} exp(-\frac{(x-\mu)^2}{2\delta^2})$$

  • 高斯分布的指数族形式:
    $$exp{\eta^T \phi(x) -A(\eta)}$$
    $$\eta = (\eta_1; \eta_2)$$
    $$\phi(x) = (x; x^2)$$
    $$A(\eta) = -\frac{\eta_1^2}{4\eta_2} + \frac{1}{2}log(-\frac{\pi}{\eta_2})$$
    $$\eta = (\eta_1; \eta_2) = (\frac{\mu}{\delta^2}; -\frac{1}{2\delta^2})$$

3. 指数族分布 - 对数配分函数和充分统计量

对数分配函数与充分统计量之间存在某些关系

  • 一阶倒数:$A(\eta)^{‘} = \frac{\partial A(\eta)}{\partial \eta} = E_{p(x|\eta} [\phi(x)]$

  • 二阶导数:$A(\eta)^{‘’} = Var[\phi(x)]$

  • $A(\eta) 是 凸函数 $

4. 指数族分布 - 极大似然估计和充分统计量

样本:$D = {x_1, …, x_N}$

极大似然估计:
$$\eta_{mle} = \argmax logP(D|\eta)$$
$$= \argmax log \prod_{i=1}^N P(x_i|\eta)$$
$$= \argmax \sum_{i=1}^N log P(x_i|\eta)$$
$$ = \argmax \sum_{i=1}^N log[h(x_i)\cdotexp(\eta^T\phi(x_i)-A(\eta))]$$
$$ = \argmax \sum_{i=1}^N [logh(x_i) + \eta^T\phi(x_i) - A(\eta)]$$
$$ = \argmax \sum_{i=1}^N (\eta^T\phi(x_i) - A(\eta))$$

求导:
$$\frac{\partial}{\partial \eta}\sum_{i=1}^N (\eta^T\phi(x_i) - A(\eta))$$
$$= \sum_{i=1}^N\frac{\partial}{\partial \eta}(\eta^T\phi(x_i) - A(\eta))$$
$$= \sum_{i=1}^N \phi(x_i) - A(\eta)^{‘} = 0$$
$$\to A(\eta_{mle})^{‘} = \frac{1}{N}\sum_{i=1}^N \phi(x_i)$$

求反函数: $\eta_{mle} = A(\eta)^{-1}$
即数据样本 $D$ 不需要保留,只需要得到充分统计量 $\phi(x)$

5. 指数族分布 - 最大熵角度

  • 信息量: $-log P$, 即与该事件发生的概率呈反比

  • 熵:$E_{p(x)}[- log P] = -\sum_x p(x) log p(x)$

  • 最大熵:

    $max H[P] = max -\sum_{i=1}^k p_i log p_i$

    $\sum_{i=1}^k p_i = 1$

    求解 $\hat{p_i} = \argmax H[p] = \argmin \sum_{i=1}^K p_i log p_i$

    然后将其转化为 拉格朗日函数 并求导求解最终的函数值。最终可以得到结论在 p(x) 是均匀分布的情况下,能够使得熵最大。

  • 在满足一定约束的情况下,需要满足最大熵的话,那么可以通过拉格朗日推导得到,$p(x)$ 是指数族分布。

坚持原创技术分享,您的支持将鼓励我继续创作!