Machine Learning (Zhihua Zhou) Notes 02

读书笔记

Posted by icbcbicc on October 15, 2016

3. 线性模型

3.2 线性回归

  • 基本概念

    • 线性回归:用线性模型拟合目标函数。

    • 均方误差:线性回归中常用的性能度量,它的几何意义是欧几里得距离(Euclidean distance)。

    • 最小二乘法(least square method):基于均方误差最小化来求解模型的方法。几何意义是在目标空间中找到一个超平面,使样本点到该平面的欧式距离之和最小。

  • 多元线性回归(multivariate linear regression)

    求最优$\hat{\omega}$使目标函数$E_\hat{\omega}$最小:

    对$\hat{\omega}$求导:

    当$X^TX$是满秩矩阵(full-rank matrix)或正定矩阵(positive definite matrix)时,可直接求得最优解:

    最终模型:

    然而当$X^TX$不是满秩矩阵时,$X$的列数多于行数,也就是特征数比样本数多。此时方程有多个最优解,需要引入正则化(regularization)来选择一个$\hat{\omega}$。

  • 广义线性模型(generalized linear model)

    其中,$g(.)$是单调可微函数。称之为联系函数(link function)

    较长用的联系函数是$ln(.)$,此时称之为对数线性回归(log-linear regression)

  • 对数几率回归(logistic regression)

    用于分类任务,将输出映射到${0,1}$的集合上。

    $\to$

    若将$y$视为取正例的概率,则$1-y$为取反例的概率。

    $\frac{y}{1-y}$称为几率(odds),反映了相对可能性。

    $ln\frac{y}{1-y}$称为对数几率(logit)

    可通过极大似然法(maximum likeihood method)估计最优解:

    $=$

    $=$

    此式为关于$(\omega;b)$高阶可导连续凸函数。可用梯度下降、牛顿法进行求解。

3.4 线性判别分析(Linear Discriminant Analysis,LDA,亦称Fisher判别分析)

  • 主要思想:将共有$N$类的样本投影到一个$N-1$维的空间,使同类的投影点接近,不同类的投影点相互远离。

  • 指标

    • $X_i,\mu_i,\Sigma_i$分别为第$i$类的样本点、均值向量、协方差矩阵。$\mu$为所有样本的均值向量。假设共$N$类,第$i$类有$m_i$个样本,共$m$个样本。

    • 全局散度矩阵:

    • 类内散度矩阵:
    • 类间散度矩阵:
  • 优化:

    • 可使用$S_t,S_w,S_b$中的任意2个指标进行优化。常用的优化目标是:
    • 此式可以通过拉格朗日乘子法转化为广义特征值问题:
    • $W$的闭式解:$S_w^{-1}S_b$的$N-1$个最大广义特征值所对应的特征向量组成的矩阵。

3.5 多分类学习

将多分类任务拆分为多个2分类任务

拆分策略

  • 一对一(One vs. One, OvO):共$N(N-1)/2$个分类器

  • 一对多(One vs. Rest, OvR):共$N$个分类器。

  • 多对多(Many vs. Many, MvM)

    用、纠错输出码(Error Correcting Output Codes, EOOC)

    • 对数据进行$M$次划分,得到$M$组{训练集,测试集},从而得到$M$个分类器。

    • 对每个样本,分别用$M$个分类器分类,这些预测标记组成一个编码序列。

    • 将预测编码与每个类别自己的编码(One-hot码)比较,距离(海明距离,欧氏距离)最近的为最终预测结果。

    • EOOC对与分类器的错误有一定容忍和修正能力。

3.6 类别不平衡问题

解决方案

  • 再缩放(rescaling):$\frac{y}{1-y}>\frac{m^+}{m+-}$:预测为正例。其中$m^+,m^-$分别为正例、反例的数目。

  • 欠采样(undersampling):去除一部分样本使得样本平衡

    将类别较多的样本划分为几个集合,形成多组{训练集,测试集}分别学习。虽然每组是欠采样,但全局上却没有欠采样,充分利用了数据。

  • 过采样(oversampling):增加一部分样本使得样本平衡

    不能直接对原有样本进行重复采样,否则将会出现严重的过拟合。

4.决策树

TODO:信息增益、增益率、基尼指数、剪枝、连续值处理、多变量决策树(斜划分)