间隔;对偶;核技巧;
手推SVM;
整里SVM相关问题;
Large-Margin Linear Classification
最大间隔线性分类器
决策函数为 $f(x) = sign(\omega^{}x+b^{})$
推导过程因为本人写字习惯斜着,所以比较乱。对此表示抱歉。附录里会放一张整体的推导过程图片,比较清晰。
0x01 间隔
1-1 硬间隔
基本硬间隔的优化表示
展开
将后边部分缩放为1,再经过变形之后得到:
整理一下,原问题为:
带约束的不好优化,所以引入拉格朗日乘子
原问题就没有了w,b的约束,再因为原问题具有强对偶性,求解原问题等价于求解对偶问题,所以转化为对偶问题
下一步,利用凸优化的特性求解最小化的拉格朗如对偶问题
得到
最后结合KKT条件解除最终解
1-2 软间隔
由于很多情况下数据集中存在噪声等情况,无法求解到最终解,所以引入了含有噪声的优化函数。
Quadratic Programming 二次规划问题
SVM的分类结果只与支持向量有关,除了支持向量以外,其他的系数均为0. 这也是SVM高效的原因。
0x02 拉格朗日对偶性
目的在于不求解带有约束的原问题,通过引入拉格朗日乘子的方式来直接求解。第一节中已经说明,从label处开始。
0x03 核技巧
把输入数据映射到一个新的(更高维)的特征空间,本质思想类似于加入非线性
具体实现在于将原公式中的内积替换成核函数
RBF
0x04 SMO 序列最小化优化
QP问题最坏时间复杂度为$O(N_{3})$,我们要做的就是利用优化算法尽量避免最坏时间复杂度。
将原N的参数的问题分解为2个2个的子问题,直到全部满足KKT条件为止。
因为子问题存在解析解,所以就算子问题很多,整体上也是加速效果。
合页损失,随机SVM
合页损失 hinge loss,看起来比较像relu,$max{0, 1-y_{i}(\omega·x+b)}$
最后这一部分比较乱,大体理解SMO思想即可。
参考资料
附录
整体推导过程