Support|Support Vector Machine(2018-05-03)

  1. SVM是一种监督学习方法,可以用来分类,回归,及异常检测。
  • 分类器通过寻找合适的linear decision boundary(或hyperplane)来分类所有数据。
  • 最佳hyperplane拥有两类间的最大margin,同时数据被线性分割。
  • SVM适用于
    a. 只有两类的数据
    b. 高维,非线性分割的数据
    c. 需要简单的分类器,解释起来很简单,且结果准确
  1. 一个问题,当数据是非线性可分时,怎么办?
  • 用kernel,将非线性可分数据转换成线性可分数据;
    具体说,将低维数据转成高维的线性可分数据
  • 这也是设计非线性分类器的技巧
  1. SVM优点
  • SVM训练相对简单,无本地优化(neural network需要)
  • non-linear SVM能够检测到数据之间更复杂的关系,且不需要很难得转换;但与此同时,训练时间更长;
  • SVM有正则化参数,能避免overfit
  • 高维空间有效
  • 当维度数大于样本数时, 仍然有效;
  • 使用了训练集的子集,在内存上有效率
  1. SVM缺点
  • 就分类而言,SVM只能分两类,因此就多类问题而言,还要额外将多类划分成若干个两类;
  • 与逻辑回归分类器不同,SVM不能直接给出概率估算;往往分类问题也需要此处的概率;
  • 参数很难解释
  • 训练时间很长
  • 如何找到一个好的kernel很难

    推荐阅读