【ML】SVM(3) 软间隔

tech2022-09-18 166

前文链接

线性对偶算法

线性支持向量机

为了使SVM可以解决线性不可分问题，需要修改硬间隔最大化，使用软间隔最大化，假设给定一个特征空间上的训练数据集 $T=\{(x_1, y_1), (x_2, y_2), \dots, (x_N, y_N)\}$ 其中， $x_i\in\mathcal{X}=\mathbb{R}^n, y_i\in\mathcal{Y}=\{-1, +1\}, i=1, 2, \dots, N$ ，其中 $x_i$ 为第 $i$ 个特征向量， $y_i$ 为类 $x_i$ 的标记，线性不可分表示某些样本点不能满足函数间隔大于等于1的约束条件，可以引入松弛变量 $\xi_i$ ，使得约束条件变为 $y_i(w\cdot x_i+b)\geq 1-\xi_i$ 同时在目标函数中加入惩罚项 $\xi_i$ ，使得目标函数变为 $\frac{1}{2}\lVert w\rVert^2+C\sum_{i=1}^N\xi_i$ 其中 $C > 0$ 为惩罚参数，目标函数有两部分，其中 $\frac{1}{2}\lVert w\rVert^2$ 表示分离间隔尽可能大， $\sum_{i=1}^N \xi_i$ 表示误分类点尽可能少， $C$ 为两部分之间的调和系数，这种目标函数也x被称为软间隔最大化. 这样线性不可分的线性支持向量机的学习问题变成如下凸二次规划(convex quadratic programming)问题 $\begin{aligned} &\min_{w, b, \xi}\frac{1}{2}\lVert w\rVert^2+C\sum_{i=1}^N\xi_i\\ &s.t. \begin{cases} y_i(w\cdot x_i+b)\geq 1-\xi_i, i=1, 2, \dots, N\\ \xi_i\geq 0, i=1, 2, \dots, N \end{cases} \end{aligned}\tag{1}$ 原问题 $(1)$ 是一个QP问题，所以关于 $\xi)$ 的解是存在的，并且可以证明 $w$ 的解是唯一的，但是 $b$ 的解不唯一，设模型最优解为 $w^*$ 和 $b^*$ ，可以得到分离超平面 $w^*x+b^*=0$ 以及分类决策函数 $f(x)=sign(w^*\cdot x+b^*)$ .

定义（线性支持向量机）：对于给定的线性不可分的训练数据集，通过求解凸二次规划问题，即软间隔最大化问题，得到分离超平面为 $w^*\cdot x+b^*=0$ 以及相应的分类决策函数 $f(x)=sign(w^*\cdot x+b^*)$ 称为线性支持向量机.

对偶学习算法

模型 $(1)$ 的对偶问题为 $\begin{aligned} &\min_\alpha\frac{1}{2}\sum_{i=1}^N\sum_{i=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\\ &s.t. \begin{cases} \sum\limits_{i=1}^N\alpha_iy_i=0\\ 0\leq \alpha_i\leq C \end{cases} \end{aligned}$ 原问题的拉格朗日函数为 $\xi, \alpha, \mu)=\frac{1}{2}\lVert w\rVert^2+C\sum_{i=1}^N\xi_i-\sum_{i=1}^N\alpha_i(y_i(w\cdot x_i+b)-1+\xi_i)-\sum_{i=1}^N\mu_i\xi_i$ 其中， $\alpha_i\geq 0, \mu_i\geq 0$ ，由于对偶问题是 $\max-\min$ 问题，求出 $\xi, \alpha, \mu)$ 的一阶条件如下 $\left\{ \begin{aligned} &\nabla_wL=w-\sum_{i=1}^N\alpha_iy_ix_0\\ &\nabla_bL=-\sum_{i=1}^N\alpha_iy_i=0\\ &\nabla_{\xi_i}L=C-\alpha_i-\mu_i=0 \end{aligned} \right.$ 将求出等式带入原目标函数，得到对偶问题. 定理：设 $\alpha^*=(\alpha_1^*, \alpha_2^*, \dots, \alpha_N^*)$ 是对偶问题的一个解，如果存在 $\alpha^*$ 的一个分量 $\alpha_j^*， 0<\alpha_j^*<C$ ，则原始问题的解 $w^*, b^*$ 可以按以下方程求出 $\left\{ \begin{aligned} & w^*=\sum_{i=1}^N\alpha_i^*y_ix_i\\ &b^*=y_j-\sum_{i=1}^Ny_i\alpha_i^*(x_i\cdot x_j) \end{aligned} \right.\tag{2}$ 证明：因为原问题是QP问题，解满足KKT条件，即 $\left\{ \begin{aligned} &\nabla_wL=w^*-\sum_{i=1}^N\alpha^*_iy_ix_i=0\\ &\nabla_bL=-\sum_{i=1}^N\alpha_i^*y_i=0\\ &\nabla_\xi L=C-\alpha^*-\mu^*=0\\ &\alpha_i^*(y_i(w^*\cdot x_i+b^*)-1-\xi^*_i)=0\\ &\mu_i^*\xi_i^*=0\\ &y_i(w^*\cdot x_i+b^*)-1+\xi_i^*\geq 0\\ &\xi^*\geq 0\\ &\alpha_i^*\geq 0\\ &\mu_i^*\geq 0, i=1, 2, \dots, N \end{aligned} \right.$ 当存在 $0<\alpha_j^*<C$ 时，即 $\mu=C-\alpha^*>0 \Rightarrow \xi^*=0$ ，由互补松弛条件可以得到 $y_i(w^*\cdot x_i+b^*)=1-\xi_i^*=1$ . 所以，分离超平面为 $\sum_{i=1}^N\alpha_i^*y_i(x\cdot x_i)+b^*=0$ 分类决策函数为 $f(x)=sgn(\sum_{i=1}^N\alpha_i^*y_i(x\cdot x_i)+b^*)$ 可以得到线性支持向量机算法如下 Input：训练数据集 $T=(x_1, y_1), (x_2, y_2), \dots, (x_N, y_N)$ ，其中 $x_i\in\mathcal{X}=\mathbb{R}^n$ output：分离超平面和分类决策函数 1.选择惩罚参数 $C > 0$ ，构造并求解凸二次规划问题 $\begin{aligned} &\min_\alpha \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\\ &s.t.\begin{cases} \sum\limits_{i=1}^N\alpha_iy_i=0\\ 0\leq \alpha_i\leq C, i=1, 2, \dots, N \end{cases} \end{aligned}$ 求出最优解 $\alpha^*=(\alpha_1^*, \alpha_2^*, \dots, \alpha_N^*)^T$ 2.计算 $w^*=\sum\limits_{i=1}^N\alpha_i^*y_ix_i$ 选择 $\alpha^*$ 的一个分量 $\alpha_j^*$ 适合条件 $0<\alpha_j^*<C$ ，计算 $b^*=y_j-\sum_{i=1}^Ny_i\alpha^*_i(x_i\cdot x_j)$ 3.求出分离超平面 $w^*\cdot x+b^*=0$ 分类决策函数为 $f(x)=sign(w^*\cdot x+b^*)$

支持向量

在线性不可分的情况下，对偶问题的解 $\alpha^*=(\alpha_1^*, \alpha_2^*, \dots, \alpha_N^*)^T$ 对于 $\alpha_i^*>0$ 的样本点 $x_i, y_i)$ 为软间隔的支持向量. 软间隔的支持向量 $x_i$ 或者在间隔边界上，或者在间隔边界与分离超平面之间，或者在误分类一侧

支持向量状态分类结果

\alpha_i^*<C, \xi_i=0

支持向量

x_i

恰好在间隔边界上

\alpha_i^*=C,0< \xi_i<1

分类正确，

x_i

在间隔边界与分离超平面之间

\alpha_i^*=C, \xi_i=1

则

x_i

在分离超平面上

\alpha_i^*=C,\xi_i>1

则

x_i

位于分离超平面误分一侧

参考资料

统计学习方法清华大学出版社李航第七章支持向量机支持向量机习题

最新回复(0)

【ML】SVM(3) 软间隔

导航

前文链接

线性支持向量机

对偶学习算法

支持向量

参考资料