一、SVM概念

支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；SVM还包括核技巧，这使它成为实质上的非线性分类器。SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。SVM的的学习算法就是求解凸二次规划的最优化算法。

二、SVM原理

2.1 间隔与支持向量

给定训练样本集 $D=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{m}, y_{m}\right)\right\}, y_{i} \in\{-1,+1\}$ , 分类学习最基本的想法就是基于训练集 $D$ 在样本空间中找到一个划分超平面, 将不同类别的样本分开. 但能将训练样本分开的划分超平面可能有很多, 如图所示, 我们应该努力去找到哪一个呢?

在这里插入图片描述

直观上看, 应该去找位于两类训练样本 “正中间” 的划分超平面，因为该划分超平面对训练样本局部扰动的 “容忍” 性最好。

在样本空间中, 划分超平面可通过如下线性方程来描述:
$\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b=0,$ 其中 $\boldsymbol{w}=\left(w_{1} ; w_{2} ; \ldots ; w_{d}\right)$ 为法向量, 决定了超平面的方向; $b$ 为位移项, 决定了超平面与原点之间的距离. 显然, 划分超平面可被法向量 $\boldsymbol{w}$ 和位移 $b$ 确定。
下面我们将其记为 $(\boldsymbol{w}, b)$ . 样本空间中任意点 $\boldsymbol{x}$ 到超平面 $(\boldsymbol{w}, b)$ 的距离可写为
$r=\frac{\left|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right|}{\|\boldsymbol{w}\|} .$

点到平面的距离公式
$d=\frac{\left|A x_{0}+B y_{0}+C z_{0}+D\right|}{\sqrt{A^{2}+B^{2}+C^{2}}}$
公式描述: 公式中的平面方程为 $A x + B y + C z + D = 0$ ， $(A, B, C)$ 为平面法向量，点 $P$ 的坐标 $x_0, y_0, z_0)，d$ 为点 $P$ 到平面的距离。

假设超平面 $(w, b)$ 能将训练样本正确分类，使得数据集的正实例点和负实例点完全正确的划分到平面两侧，建立模型为：
$f(x)=sign(\boldsymbol{w}^{\mathrm{T}}{\boldsymbol{x}}+b)$
即对于 $\left(x_{i}, y_{i}\right) \in D$ , 若 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b>0$ ,则有 $y_{i}=$ $+ 1$ ; 若 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b<0$ ,则 $y_{i}=-1$
$y_i=\begin{cases}1，\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b>0 \\ -1，\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b<0 \end{cases}$

不妨令
$\begin{cases}\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b \geqslant+1, & y_{i}=+1 \\ \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b \leqslant-1, & y_{i}=-1\end{cases}$
如下图所示, 距离超平面最近的这几个训练样本点使上式的等号成立, 它们被称为 “支持向量” (support vector), 两个异类支持向量到超平面的距离之和为
$\gamma=\frac{2}{\|w\|}$
它被称为 “间隔” (margin)

在这里插入图片描述

欲找到具有 “最大间隔” (maximum margin)的划分超平面, 也就是要找到能满足约束的参数 $\boldsymbol{w}$ 和 $b$ , 使得 $\gamma$ 最大, 即
$\max \limits_{\boldsymbol{w}, b} \frac{2}{\|\boldsymbol{w}\|} \\ \text { s.t. } y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1,\quad i=1,2, \ldots, m \text{}$

间隔貌似只与 $\boldsymbol{w}$ 有关，实际上 $b$ 通过约束条件对 $\boldsymbol{w}$ 取值有影响。

显然, 为了最大化间隔, 等价于最小化 $\|\boldsymbol{w}\|^{2}$ . 于是可重写为
$\begin{align} &\min _{\boldsymbol{w}, b} \frac{1}{2}\|\boldsymbol{w}\|^{2} \\ &\text{s.t. }y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1, \quad i=1,2, \ldots, m \end{align}$
这就是支持向量机的基本型，是一个含有不等式约束的凸二次规划问题，可以对其使用拉格朗日乘子法得到其对偶问题（dual problem）。

2.2 对偶问题

对式(1)使用拉格朗日乘子法可得到其 “对偶问题” (dual problem). 具体来说, 对式 (1) 的每条约束添加拉格朗日乘子 $\alpha_{i} \geqslant 0$ , 则该问题的拉格朗日函数可写为
$\begin{align} L(\boldsymbol{w}, b, \boldsymbol{\alpha})=\frac{1}{2}\|\boldsymbol{w}\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right)\right) \end{align}$
其中 $\boldsymbol{\alpha}=\left(\alpha_{1} ; \alpha_{2} ; \ldots ; \alpha_{m}\right)$ . 令 $L(\boldsymbol{w}, b, \boldsymbol{\alpha})$ 对 $\boldsymbol{w}$ 和 $b$ 的偏导为零可得
$\begin{align} \boldsymbol{w} &=\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i} \\ 0 &=\sum_{i=1}^{m} \alpha_{i} y_{i} \end{align}$
将式(4)代入 (3), 即可将 $L(\boldsymbol{w}, b, \boldsymbol{\alpha})$ 中的 $\boldsymbol{w}$ 和 $b$ 消去, 再考虑式 (5)的约束, 就得到式 (1) 的对偶问题
$\begin{align} &\max _{\boldsymbol{\alpha}} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}\\ &\text { s.t. } \sum_{i=1}^{m} \alpha_{i} y_{i}=0 \alpha_{i} \geqslant 0, \quad i=1,2, \ldots, m . \end{align}$
解出 $\alpha$ 后, 求出 $\boldsymbol{w}$ 与 $b$ 即可得到模型
$\begin{aligned}\tag{8} f(\boldsymbol{x}) &=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}+b \end{aligned}$
从对偶问题(6)解出的 $\alpha_{i}$ 是式(3)中的拉格朗日乘子, 它恰对应着训练样本 $\left(\boldsymbol{x}_{i}, y_{i}\right)$ . 注意到式 (1) 中有不等式约束, 因此上述过程需满足 $\mathrm{KKT}$ (Karush-Kuhn-Tucker) 条件, 即要求
$\left\{\begin{array}{l}\tag{9} \alpha_{i} \geqslant 0 \\ y_{i} f\left(\boldsymbol{x}_{i}\right)-1 \geqslant 0 ; \\ \alpha_{i}\left(y_{i} f\left(\boldsymbol{x}_{i}\right)-1\right)=0 \end{array}\right.$
于是; 对任意训练样本 $\left(\boldsymbol{x}_{i}, y_{i}\right)$ , 总有 $\alpha_{i}=0$ 或 $y_{i} f\left(\boldsymbol{x}_{i}\right)=1$ . 若 $\alpha_{i}=0$ , 则该样本将不会在式 (8) 的求和中出现, 也就不会对 $f (x)$ 有任何影响; 若 $\alpha_{i}>0$ , 则必有 $y_{i} f\left(\boldsymbol{x}_{i}\right)=1$ , 所对应的样本点位于最大间隔边界上, 是一个支持向量. 这显示出支持向量机的一个重要性质：训练完成后, 大部分的训练样本都不需保留, 最终模型仅与支持向量有关.

针对式(6)的求解采用 $SMO$ 算法，基本思路是先固定 $\alpha_{i}$ 之外的所有参数, 然后求 $\alpha_{i}$ 上的极值. 由于存在约束 $\sum_{i=1}^{m} \alpha_{i} y_{i}=0$ , 若固定 $\alpha_{i}$ 之外的其他变量, 则 $\alpha_{i}$ 可由其他变量导出. 于是, $SMO$ 每次选择两个变量 $\alpha_{i}$ 和 $\alpha_{j}$ , 并固定其他参数. 这样, 在参数初始化后, $SMO$ 不断执行如下两个步骤直至收敛：

选取一对需更新的变量 $\alpha_{i}$ 和 $\alpha_{j}$ ;
固定 $\alpha_{i}$ 和 $\alpha_{j}$ 以外的参数, 求解式(6)获得更新后的 $\alpha_{i}$ 和 $\alpha_{j}$ .
注意到只需选取的 $\alpha_{i}$ 和 $\alpha_{j}$ 中有一个不满足 $\mathrm{KKT}$ 条件(9), 目标函数就会在迭代后减小. 直观来看, KKT 条件违背的程度越大, 则变量更新后可能导致的目标函数值减幅越大. 于是, $SMO$ 先选取违背 KKT 条件程度最大的变量. 第二个变量应选择一个使目标函数值减小最快的变量, 但由于比较各变量所对应的目标函数值减幅的复杂度过高, 因此 $SMO$ 采用了一个启发式: 使选取的两变量所对应样本之间的间隔最大. 一种直观的解释是, 这样的两个变量有很大的差别, 与对两个相似的变量进行更新相比, 对它们进行更新会带给目标函数值更大的变化.

$SMO$ 算法之所以高效, 恰由于在固定其他参数后, 仅优化两个参数的过程能做到非常高效. 具体来说, 仅考虑 $\alpha_{i}$ 和 $\alpha_{j}$ 时, 式(6)中的约束可重写为
$\begin{equation}\tag{10} \alpha_{i} y_{i}+\alpha_{j} y_{j}=c, \quad \alpha_{i} \geqslant 0, \quad \alpha_{j} \geqslant 0\end{equation}$
其中
$\begin{equation}\tag{11} c=-\sum_{k \neq i, j} \alpha_{k} y_{k}\end{equation}$
是使 $\sum_{i=1}^{m} \alpha_{i} y_{i}=0$ 成立的常数. 用
$\begin{equation}\tag{12} \alpha_{i} y_{i}+\alpha_{j} y_{j}=c\end{equation}$
消去式(6)中的变量 $\alpha_{j}$ , 则得到一个关于 $\alpha_{i}$ 的单变量二次规划问题, 仅有的约束是 $\alpha_{i} \geqslant 0$ . 不难发现, 这样的二次规划问题具有闭式解, 于是不必调用数值优化算法即可高效地计算出更新后的 $\alpha_{i}$ 和 $\alpha_{j}$ .
如何确定偏移项 $b$ 呢? 注意到对任意支持向量 $\left(\boldsymbol{x}_{s}, y_{s}\right)$ 都有 $y_{s} f\left(\boldsymbol{x}_{s}\right)=1$ , 即
$\begin{equation}\tag{13} y_{s}\left(\sum_{i \in S} \alpha_{i} y_{i} \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{s}+b\right)=1\end{equation}$
其中 $S=\left\{i \mid \alpha_{i}>0, i=1,2, \ldots, m\right\}$ 为所有支持向量的下标集. 理论上, 可选取任意支持向量并通过求解式 (13)获得 $b$ , 但现实任务中常采用一种更鲁棒的做法: 使用所有支持向量求解的平均值
$\begin{equation}\tag{14} b=\frac{1}{|S|} \sum_{s \in S}\left(y_{s}-\sum_{i \in S} \alpha_{i} y_{i} x_{i}^{\mathrm{T}} x_{s}\right) \end{equation}$

2.3 核函数

核函数：令 $\mathcal{X}$ 为输入空间, $\kappa(\cdot, \cdot)$ 是定义在 $\mathcal{X} \times \mathcal{X}$ 上的对称函数, 则 $\kappa$ 是核函数当且仅当对于任意数据 $D=\left\{x_{1}, x_{2}, \ldots, x_{m}\right\}$ , “核矩阵” (kernel matrix) $\mathbf{K}$ 总是半正定的:
$\mathbf{K}=\left[\begin{array}{ccccc} \kappa\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{1}\right) & \cdots & \kappa\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{j}\right) & \cdots & \kappa\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{m}\right) \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{1}\right) & \cdots & \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) & \cdots & \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{m}\right) \\ \vdots & \ddots & \vdots & \ddots & \vdots \\ \kappa\left(\boldsymbol{x}_{m}, \boldsymbol{x}_{1}\right) & \cdots & \kappa\left(\boldsymbol{x}_{m}, \boldsymbol{x}_{j}\right) & \cdots & \kappa\left(\boldsymbol{x}_{m}, \boldsymbol{x}_{m}\right) \end{array}\right] .$
只要一个对称函数所对应的核矩阵半正定, 它就能作为核函数使用. 事实上, 对于一个半正定核矩阵, 总能找到一个与之对应的映射 $\phi$ . 换言之, 任何一个核函数都隐式地定义了一个称为 “再生核希尔伯特空间” (Reproducing Kernel Hilbert Space, 简称 RKHS)的特征空间.

我们希望样本在特征空间内线性可分, 因此特征空间的好坏对支持向量机的性能至关重要. 需注意的是, 在不知道特征映射的形式时, 我们并不知道什么样的核函数是合适的, 而核函数也仅是隐式地定义了这个特征空间. 于是, “核函数选择” 成为支持向量机的最大变数. 若核函数选择不合适, 则意味着将样本映射到了一个不合适的特征空间, 很可能导致性能不佳.

常用核函数如下表所示：
$\begin{aligned} &\begin{array}{lll} \hline \text { 名称 } & \text { 表达式 } & \text { 参数 } \\ \hline \text { 线性核 } & \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j} & \\ \text { 多项式核 } & \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left(\boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}\right)^{d} & d \geqslant 1 \text { 为多项式的次数 } \\ \text { 高斯核 } & \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|^{2}}{2 \sigma^{2}}\right) & \sigma>0 \text { 为高斯核的带宽 (width) } \\ \text { 拉普拉斯核 } & \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\exp \left(-\frac{\left\|\boldsymbol{x}_{i}-\boldsymbol{x}_{j}\right\|}{\sigma}\right) & \sigma>0 \\ \text { Sigmoid 核 } & \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\tanh \left(\beta \boldsymbol{x}_{i}^{\mathrm{T}} \boldsymbol{x}_{j}+\theta\right) & \tanh \text { 为双曲正切函数, } \beta>0, \theta<0 \\ \hline \end{array} \end{aligned}$
此外, 还可通过函数组合得到, 例如:

若 $\kappa_{1}$ 和 $\kappa_{2}$ 为核函数, 则对于任意正数 $\gamma_{1} 、 \gamma_{2}$ , 其线性组合
$\gamma_{1} \kappa_{1}+\gamma_{2} \kappa_{2}$
也是核函数;
若 $\kappa_{1}$ 和 $\kappa_{2}$ 为核函数, 则核函数的直积
$\kappa_{1} \otimes \kappa_{2}(\boldsymbol{x}, \boldsymbol{z})=\kappa_{1}(\boldsymbol{x}, \boldsymbol{z}) \kappa_{2}(\boldsymbol{x}, \boldsymbol{z})$
也是核函数;
若 $\kappa_{1}$ 为核函数, 则对于任意函数 $g(\boldsymbol{x})$ ,
$\kappa(\boldsymbol{x}, \boldsymbol{z})=g(\boldsymbol{x}) \kappa_{1}(\boldsymbol{x}, \boldsymbol{z}) g(\boldsymbol{z})$
也是核函数.

当原始样本空间不存在划分两类样本的超平面，如下图所示：

在这里插入图片描述

对这样的问题, 可将样本从原始空间映射到一个更高维的特征空间, 使得样本在这个特征空间内线性可分. 将原始的二维空间映射到一个合适的三维空间, 就能找到一个合适的划分超平面. 如果原始空间是有限维, 即属性数有限, 那么一定存在一个高维特征空间使样本可分.
令 $\phi(x)$ 表示将 $\boldsymbol{x}$ 映射后的特征向量, 于是, 在特征空间中划分超平面所对应的模型可表示为
$\begin{aligned}\tag{15} f(\boldsymbol{x})=\boldsymbol{w}^{\mathrm{T}} \phi(\boldsymbol{x})+b \end{aligned}$
其中 $\boldsymbol{w}$ 和 $b$ 是模型参数. 类似式 (15), 有
$\begin{aligned}\tag{16} &\min _{\boldsymbol{w}, b} \frac{1}{2}\|\boldsymbol{w}\|^{2}\\ &\text{s.t. } y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \phi\left(\boldsymbol{x}_{i}\right)+b\right) \geqslant 1, \quad i=1,2, \ldots, m \end{aligned}$ .
其对偶问题是
$\tag{17}\max _{\alpha} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi\left(\boldsymbol{x}_{j}\right)$
$\begin{array}{ll}\tag{18} \text {s.t. } & \sum_{i=1}^{m} \alpha_{i} y_{i}=0, &\alpha_{i} \geqslant 0, \quad i=1,2, \ldots, m . \end{array}$
求解式 (17) 涉及到计算 $\phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi\left(\boldsymbol{x}_{j}\right)$ , 这是样本 $\boldsymbol{x}_{i}$ 与 $\boldsymbol{x}_{j}$ 映射到特征空间之后的内积. 由于特征空间维数可能很高, 甚至可能是无穷维, 因此直接计算 $\phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi\left(\boldsymbol{x}_{j}\right)$ 通常是困难的. 为了避开这个障碍, 可以设想这样一个函数:
$\tag{19}\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\left\langle\phi\left(\boldsymbol{x}_{i}\right), \phi\left(\boldsymbol{x}_{j}\right)\right\rangle=\phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi\left(\boldsymbol{x}_{j}\right)$
即 $\boldsymbol{x}_{i}$ 与 $\boldsymbol{x}_{j}$ 在特征空间的内积等于它们在原始样本空间中通过函数 $\kappa(\cdot, \cdot)$ 计算的结果. 有了这样的函数, 我们就不必直接去计算高维甚至无穷维特征空间中的内积, 于是式 (17) 可重写为
$\begin{aligned}\tag{20} \max _{\alpha} & \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} \kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \\ \text { s.t. } & \sum_{i=1}^{m} \alpha_{i} y_{i}=0 , \alpha_{i} \geqslant 0, \quad i=1,2, \ldots, m \end{aligned}$
求解后即可得到
$\begin{aligned}\tag{21} f(\boldsymbol{x}) &=\boldsymbol{w}^{\mathrm{T}} \phi(\boldsymbol{x})+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} \phi\left(\boldsymbol{x}_{i}\right)^{\mathrm{T}} \phi(\boldsymbol{x})+b \\ &=\sum_{i=1}^{m} \alpha_{i} y_{i} \kappa\left(\boldsymbol{x}, \boldsymbol{x}_{i}\right)+b . \end{aligned}$
这里的函数 $\kappa(\cdot, \cdot)$ 就是 “核函数” (kernel function). 式(7) 显示出模型最优解可通过训练样本的核函数展开, 这一展式亦称 “支持向量展式”.

由于篇幅限制，后续内容链接: 支持向量机原理（二）

支持向量机SVM原理一

SVM原理与python实现

一、SVM概念

二、SVM原理

2.1 间隔与支持向量

2.2 对偶问题

2.3 核函数

相关推荐