Support|Support Vector Machine(2018-05-03)

2021-12-24

SVM是一种监督学习方法，可以用来分类，回归，及异常检测。

分类器通过寻找合适的linear decision boundary（或hyperplane）来分类所有数据。
最佳hyperplane拥有两类间的最大margin，同时数据被线性分割。
SVM适用于
a. 只有两类的数据
b. 高维，非线性分割的数据
c. 需要简单的分类器，解释起来很简单，且结果准确

一个问题，当数据是非线性可分时，怎么办？

用kernel，将非线性可分数据转换成线性可分数据；
具体说，将低维数据转成高维的线性可分数据
这也是设计非线性分类器的技巧

SVM优点

SVM训练相对简单，无本地优化（neural network需要）
non-linear SVM能够检测到数据之间更复杂的关系，且不需要很难得转换；但与此同时，训练时间更长；
SVM有正则化参数，能避免overfit
高维空间有效
当维度数大于样本数时，仍然有效；
使用了训练集的子集，在内存上有效率

SVM缺点

就分类而言，SVM只能分两类，因此就多类问题而言，还要额外将多类划分成若干个两类；
与逻辑回归分类器不同，SVM不能直接给出概率估算；往往分类问题也需要此处的概率；
参数很难解释
训练时间很长
如何找到一个好的kernel很难

推荐阅读

上一篇：2017-04-20

下一篇：CKS考试总结