0%

1. 概率图模型-背景介绍

  • 表示(Representation)

    • 有向图(Bayesian Network)
    • 无向图(Markov Network)
  • 推断(Inference)

    • 精确推断
    • 近似推断[确定性近似(变分推断), 随机近似(MCMC)]
  • 学习(learning)

    • 参数学习(完备数据,隐变量)
    • 结构学习
  • 规则:

    • Sum Rule: $P(x_1) = \int P(x_1, x_2) dx_2$
    • Product Rule: $P(x_1, x_2) = P(x_1)P(x_2|x_1) = P(x_2)P(x_1|x_2)$
    • chain Rule: $P(x_1,…,x_p) = \prod_{i=1}^p P(x_i|x_1,…,x_{p-1})$
    • bayesian Rule: $P(x_2|x_1) = \frac{P(x_2, x_1)}{P(x_1)} = \frac{P(x_1, x_2)}{\int P(x_1, x_2)dx_2} = \frac{P(x_2)P(x_2|x_1)}{\int P(x_2)P(x_1|x_2)dx_2}$
  • 高维随机变量$P(x_1,…,x_p)$ 的困境: 维度高,计算复杂

    • 简化: 特征相互独立, $P(x_1,…,x_p)=\prod_{i=1}^p P(x_i)$
      阅读全文 »

1. 指数族分布-背景

  • 具有的性质:充分统计量; 共轭; 最大熵原理(无信息先验)

  • 定义: $P(x|\eta) = h(x) exp(\eta^T \phi(x) - A(\eta))$

    $\eta$: 参数向量, $x \in R^p$

    $A(\eta)$: log partition function (对数配分函数)

    $\phi(x)$: 充分统计量 (online learning)

    阅读全文 »

1. 线性分类-背景

Linear Regression: $f(w, b) = w^T x + b$

  • 线性:

    • 属性非线性: 特征转换(多项式回归)
    • 全局非线性: 线性分类(激活函数是非线性)
    • 系数非线性: 神经网络,感知机
  • 全局性:线性样条回归,决策树

  • 数据未加工: PCA, 流形

分类:

  • 硬分类: 0 或者 1

    • 线性判别模型 fisher:
    • 感知机
  • 软分类: 0 到 1 的概率值

    • 生成式:高斯判别模型
    • 判别式:逻辑回归
阅读全文 »

1. 频率派 vs 贝叶斯派

数据: $X = (x_1, x_2, …, x_n)^T_{N \times p}$ 参数: $\theta$

  • 频率派: $\theta$ 是未知参数,$X$ 是随机变量(r.v.)

    MLE: $\theta = \argmax_{\theta} P(X | \theta)$

    引申为统计机器学习,构造loss function. 进行梯度下降法等参数优化训练

  • 贝叶斯派:$\theta$为 r.v., 且具有先验分布 $\theta \sim P(\theta)$

    MAP: $\theta = \argmax_{\theta} P(\theta | X) = \argmax_{\theta} P(X|\theta)\cdot P(\theta)$

    贝叶斯估计:$P(\theta | X) = \frac{P(X | \theta)P(\theta)}{\int_{\theta}P(X|\theta)P(\theta) d\theta}$

    贝叶斯预测:给定观测 $\hat{x}$, $P(\hat{x}|X) = \int_{\theta}P(\hat{x},\theta|X) = \int_{\theta}P(\hat{x}|\theta)P(\theta|X) d\theta$

    引申为概率图模型,求积分, MCMC(蒙特卡洛采样)

阅读全文 »

1. Xgboost

  • 目标函数的意义 $Obj(\theta) = L(\theta) + G(\theta)$

    • $L(\theta)$ 衡量了模型对于训练数据的拟合能力: 均方根(回归), 逻辑损失(分类)。

    • $G(\theta)$ 测量了模型的复杂度:L1, L2 正则化。

  • 优化目标函数的意义:

      1. 优化 training loss 鼓励模型去学习一个有用的模型
      1. 优化 regularization loss 鼓励去学习一个简单的模型。
  • 对应树结构:$L(\theta)$ 就是各个树的结构,而$G(\theta)$ 就是树的复杂性(例如树的节点个数,树的深度等)

  • 目标函数: $\sum_{i=1}^{n}l(y_i, \hat{y_i}) + \sum_{k}G(f_k), f_k \in \ F$

    • 面临的问题: 我们不能使用 SGD 去寻找 $f_k$, 因为他们都是树结构,而不是数值向量。

    • 解决方法: 加法训练(Addtive Training or called Boosting)
      $$ \hat{y}_i^{(0)} = 0 $$
      $$ \hat{y}_i^{(1)} = f_1(x_i) = \hat{y}_i^{(0)} + f_1(x_i) $$
      $$ \hat{y}_i^{(2)} = f_1(x_i) + f_2(x_i) = \hat{y}_i^{(1)}+f_2(x_i) $$
      $$ \hat{y}i^{(t)} = \sum{k=1}^tf_k(x_i) = \hat{y}_i^{(t-1)} + f_t(x_i) $$

    • 如何决定在第 t 轮加入的 $f_t$
      第 t 轮的预测
      $$ \hat{y}_i^{(t)} = \hat{y}_i^{(t-1)} + f_t(x_i)

    $$

阅读全文 »

深度学习优化算法: SGD -> SGDM -> NAG -> AdaGrad -> AdaDelta -> Adam -> Nadam
下面介绍的内容都会用到的数学表达:

  • 待优化参数 $w$
  • 目标函数 $f(w)$
  • 初始学习率 $a$

优化过程可以建模为, 在每个 epoch $t$ 中:

    1. 计算目标函数关于当前参数梯度: $g_t = \nabla f(w_t)$
    1. 根据历史梯度计算 一阶动量二阶动量:$m_t=\phi(g_1,…,g_t)$, $V_t=\varphi(g_1,…,g_t)$
    1. 计算当前时刻的下降梯度:$\eta_t = a \cdot m_t / \sqrt{V_t}$
    1. 根据下降梯度进行更新:$w_{t+1} = w_t - \eta_t$

      1. SGD (stochastic gradient descent) 随机梯度下降

      SGD 没有动量的概率,即 $m_t=g_t, V_t=I^2$, 即 $\eta_t=a\cdot g_t$
  • 缺点:下降速度慢,可能在沟壑的两边持续政党,停留在局部最优点。

2. SGDM (stochastic gradident descent with momentum)

为了抑制 SGD 的震荡,SGDM 认为梯度下降过程加入了惯性,下坡的实收,如果发现是陡坡,那么惯性下降更快。
$$m_t = \beta_1m_{t-1} + (1-\beta_1)g_t$$
一阶动量是各个时刻梯度方向的指数移动平均值,约等于 $1/(1-\beta_1)$ 个最近时刻的梯度方法的平均值。

阅读全文 »

1. 决策树之间的区别

ID3 C4.5 CART
依据 信息增益 信息增益率 Gini系数
任务 分类 分类 分类和回归
树类型 多叉树 多叉树 二叉树
阅读全文 »

-

1. 为什么需要对于数值类型特征进行特征归一化?


为了消除不同数据特征之间的量纲影响,我们需要对于特征进行归一化处理,是的不同指标之间具有可比性。其主要方法为以下两种:

  • 线性函数归一化(Min-Max Scaling):对原始特征进行线性变换,归一化到[0,1]范围内。

  • 零均值归一化:会将原始特征映射到均值为0,方差为1 的分布上。设原始特征的均值和方差分别为$\mu, \delta$,归一化公式。

    阅读全文 »