西瓜书-第6章-支持向量机-白红宇

西瓜书-第6章-支持向量机

阅读量：4282 次

发布时间：2019-05-27

本文共 1842 字，大约阅读时间需要 6 分钟。

间隔与支持向量

一个支持向量机解决一个二分类问题

假设一个超平面 w^Tx+b=0能将正反例正确划分

超平面上方为正例+1，下方为反例-1

那么正例(x_i,y_i),使 w^Tx_i+b>0,y_i = +1

那么反例(x_i,y_i),使 w^Tx_i+b<0,y_i = -1

任意点到超平面的距离可写为：r = |w^Tx_i+b| / ||w||

任意正反例的距离 |w^Tx_i⁺+b - (w^Tx_i^-+b)| / ||w||

假设w^Tx_i⁺+b = +1,（>0 即可，也可以是 +100 或者 +0.1）

假设w^Tx_i^-+b = -1,（<0 即可，也可以是 -50 或者 -0.1）

那么正反例的距离等于 |1-(-1)|/||w|| = 2 / ||w|| （也可以是150 / ||w||，或者 0.2 / ||w||，分子多大都没关系，不影响我们的目标：最大化间隔，等价于求分母最小化）

我们希望离划分超平面最近的正反例（即：支持向量），之间的**距离（即：间隔）**最大化，这样的划分鲁棒性最好（健壮）。

那么需要求得w和b，令 2 / ||w|| 最大化，这等价于求得w和b，使得 0.5||w||² 最小化，约束条件为：y_i(w^Tx+b)>0

对每条约束添加拉格朗日乘子，将约束条件的最优化问题转化为无约束问题：

L = 0.5||w||² + Σa_i(-y_i(w^Tx+b))

对w求偏导为零可得：

w = Σa_iy_ix_i

对b求偏导为零可得：

0 = Σa_iy_i

将w和b代入原式L，再考虑约束，得 0.5||w||² 的对偶问题：（疑惑）

MAX|a：Σa_i - 0.5ΣΣa_ia_jy_iy_jx_i^Tx_j

s.t：Σa_iy_i = 0，a_i >= 0

解出 a 后（通过SMO算法求解），可求出 w 与 b ，即可得模型：

f(x) = w^Tx+b = Σa_iy_ix_i^Tx+b

SMO算法固定a_i和y_i之外的所有参数（即c），对a_i、y_i求解

c = - Σa_ky_k，k!=i,j

a_iy_i + a_jy_j = c

将 a_j = (c-a_iy_i) / y_j 代入： MAX|a：Σa_i - 0.5ΣΣa_ia_jy_iy_jx_i^Tx_j

得到的是关于a_i的单变量二次规划问题，仅有约束是a_i>=0，具有闭式解，可高效计算出更新后的a_i和y_i。

约束要求满足KKT条件：

a_i >= 0；

y_if(x_i) - 1 >= 0；

a_i （y_if(x_i) - 1 ） = 0；

对任意训练样本，总有a_i = 0，或者 y_if(x_i) = 1

若 a_i = 0，则该样本不会在求和式中出现，也就不会对f(x)有任何影响。

若 a_i > 0，则该样本位于最大间隔边界上，是一个支持向量。

因此：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量有关。

核函数

如果原始空间是有限维，即属性有限，那么一定存在一个高维特征空间使样本可分。

核技巧：不必直接去计算高维甚至无穷维特征空间中的内积，而是通过核函数来展开，即可求出最优解。

通常，我们只需在已有的常用候选核函数中选择出适合解决我们任务的一个，而不需要自己去定义一个新的核函数。

软间隔和正则化

我们要求所有样本满足约束条件，这是硬间隔。相对的，软间隔允许某些样本不满足约束。

我们希望不满足约束的样本尽量少，于是加入了损失函数，由于损失函数不容易求解，于是又有了替代损失函数如：

hinge损失函数

指数损失函数

对率损失函数

引入常数C以及松弛变量，变化出软间隔支持向量机

常数C控制满足约束的样本量多少，C越大，需要越多样本满足约束，反之，越小容忍度越大。

支持向量回归（SVR）

传统回归模型只有当f(x)和y_i完全一致时才不计入损失。

SVR则以f(x)=wx+b为中心，构建一个宽度为2e的间隔带，若训练样本落入此间隔带，则不计算损失，被认为是预测正确的。

问题变化为：

min 0.5||w||²+CΣl_e(f(x)-y_i),

f(x) - y_i <= e，损失为0，否则损失为f(x) - y_i - e

C是正则化常数

经过各种推导，SVR可表示为：

f(x) = Σ(a_i^’-a_i)k(x,x_i)+b

其中k为核函数。

核方法

若不考虑偏移项b，则无论SVM还是SVR，学得的模型总能表示成核函数k(x,x_i)的线性组合。

读这章的感受

这章的公式太多了，很多推导不好理解，看了好多天没看明白，所以暂时放下，接着看后面几章吧。

转载地址：http://dibgi.baihongyu.com/

你可能感兴趣的文章

sdio (三) linux sdio 驱动

Linux 动态输出 dynamic_debug

查看>>

JTAG (二) 协议

查看>>

sdio (四) linux sdio 用户空间

查看>>

/sys 目录及 sysfs 文件系统

查看>>

/sys/kernel/debug及debugfs

查看>>

ftrace

查看>>