2020-05-22 第十三章 支持向量机模型(python)SVM 是 Support Vector Machine 的简称 , 它的中文名为支持向量机,属于一种有监督的机器学习算法,可用于离散因变量的分类和连续因变量的预测 。通常情况下,该算法相对于其他单一的分类算法(如 Logistic 回归、决策树、朴素贝叶斯、 KNN 等)会有更好的预测准确率 , 主要是因为它可以将低维线性不可分的空间转换为高维的线性可分空间 。
“分割带”代表了模型划分样本点的能力或可信度 , “分割带”越宽,说明模型能够将样本点划分得越清晰 , 进而保证模型泛化能力越强,分类的可信度越高;反之,“分割带”越窄,说明模型的准确率越容易受到异常点的影响,进而理解为模型的预测能力越弱,分类的可信度越低 。
线性可分的所对应的函数间隔满足的条件,故就等于。所以,可以将目标函数等价为如下的表达式:
假设存在一个需要最小化的目标函数,并且该目标函数同时受到的约束 。如需得到最优化的解,则需要利用拉格朗日对偶性将原始的最优化问题转换为对偶问题,即:
分割面的求解
分割面的表达式
对于非线性SVM模型而言,需要经过两个步骤,一个是将原始空间中的样本点映射到高维的新空间中,另一个是在新空间中寻找一个用于识别各类别样本点线性“超平面” 。
假设原始空间中的样本点为,将样本通过某种转换映射到高维空间中,则非线性SVM模型的目标函数可以表示为:
其中,内积可以利用核函数替换,即。对于上式而言,同样需要计算最优的拉格朗日乘积,进而可以得到线性“超平面”与的值:
假设原始空间中的两个样本点为,在其扩展到高维空间后,它们的内积如果等于样本点在原始空间中某个函数的输出,那么该函数就称为核函数 。
线性核函数的表达式为,故对应的分割“超平面”为:
多项式核函数的表达式为 , 故对应的分割“超平面”为:
高斯核函数的表达式为,故对应的分割“超平面”为:
Sigmoid 核函数的表达式为,故对应的分割“超平面”为:
在实际应用中,SVM 模型对核函数的选择是非常敏感的,所以需要通过先验的领域知识或者交叉验证的方法选出合理的核函数 。大多数情况下,选择高斯核函数是一种相对偷懒而有效的方法,因为高斯核是一种指数函数,它的泰勒展开式可以是无穷维的,即相当于把原始样本点映射到高维空间中 。
output_13_0.png
python的seaborn.kdeplot有什么用kde(kernel density estimation)是核密度估计 。核的作用是根据离散采样,估计连续密度分布 。
如果原始采样是《阴阳师》里的式神,那么kernel(核函数)就相当于御魂 。
假设现在有一系列离散变量X = [4, 5, 5, 6, 12, 14, 15, 15, 16, 17],可见5和15的概率密度应该要高一些,但具体有多高呢?有没有三四层楼那么高,有没有华莱士高?如果要估计的是没有出现过的3呢?这就要自己判断了 。
核函数就是给空间的每个离散点都套上一个连续分布 。最简单的核函数是Parzen窗,类似一个方波:
这时候单个离散点就可以变成区间,空间或者高维空间下的超立方,实质上是进行了升维 。
设h=4,则3的概率密度为:
(只有4对应的核函数为1,其他皆为0)
kernel是非负实值对称可积函数 , 表示为K,且一本满足:
这样才能保证cdf仍为1 。
实际上应用最多的是高斯核函数(Gaussian Kernel),也就是标准正态分布 。所谓核密度估计就是把所有离散点的核函数加起来 , 得到整体的概率密度分布 。核密度估计在很多机器学习算法中都有应用,比如K近邻、K平均等 。
在支持向量机里,也有“核”的概念,同样也是给数据升维 , 最常用的还是高斯核函数 , 也叫径向基函数(Radial Basis Funtion) 。
seaborn.kdeplot内置了多种kerne,总有一款适合你 。
有没有老师了解Python用于Meta分析的工具包Python在科学计算领域核函数模型python,有两个重要核函数模型python的扩展模块:Numpy和Scipy 。其中Numpy是一个用python实现的科学计算包 。包括:
一个强大的N维数组对象Array;
比较成熟的(广播)函数库;
用于整合C/C和Fortran代码的工具包;
实用的线性代数、傅里叶变换和随机数生成函数 。
SciPy是一个开源的Python算法库和数学工具包核函数模型python,SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其核函数模型python他科学与工程中常用的计算 。其功能与软件MATLAB、Scilab和GNU Octave类似 。
Numpy和Scipy常常结合着使用,Python大多数机器学习库都依赖于这两个模块,绘图和可视化依赖于matplotlib模块 , matplotlib的风格与matlab类似 。Python机器学习库非常多 , 而且大多数开源,主要有:
1.scikit-learn
scikit-learn 是一个基于SciPy和Numpy的开源机器学习模块,包括分类、回归、聚类系列算法,主要算法有SVM、逻辑回归、朴素贝叶斯、Kmeans、DBSCAN等 , 目前由INRI 资助,偶尔Google也资助一点 。
项目主页:
2.NLTK
NLTK(Natural Language Toolkit)是Python的自然语言处理模块,包括一系列的字符处理和语言统计模型 。NLTK 常用于学术研究和教学,应用的领域有语言学、认知科学、人工智能、信息检索、机器学习等 。NLTK提供超过50个语料库和词典资源,文本处理库包括分类、分词、词干提取、解析、语义推理 。可稳定运行在Windows, Mac OS X和Linux平台上.
项目主页:
3.Mlpy
Mlpy是基于NumPy/SciPy的Python机器学习模块 , 它是Cython的扩展应用 。包含的机器学习算法有:
l回归
least squares, ridge regression, least angle regression, elastic net, kernel ridge regression, support vector machines (SVM), partial least squares (PLS)
l分类
linear discriminant analysis (LDA), Basic perceptron, Elastic Net, logistic regression, (Kernel) Support Vector Machines (SVM), Diagonal Linear Discriminant Analysis (DLDA), Golub Classifier, Parzen-based, (kernel) Fisher Discriminant Classifier, k-nearest neighbor, Iterative RELIEF, Classification Tree, Maximum Likelihood Classifier
l聚类
hierarchical clustering, Memory-saving Hierarchical Clustering, k-means
l维度约减
(Kernel) Fisher discriminant analysis (FDA), Spectral Regression Discriminant Analysis (SRDA), (kernel) Principal component analysis (PCA)
项目主页:
4.Shogun
Shogun是一个开源的大规模机器学习工具箱 。目前Shogun的机器学习功能分为几个部分:feature表示,feature预处理,核函数表示,核函数标准化,距离表示 , 分类器表示,聚类方法,分布,性能评价方法,回归方法,结构化输出学习器 。
SHOGUN 的核心由C实现 , 提供 Matlab、 R、 Octave、 Python接口 。主要应用在linux平台上 。
项目主页:
5.MDP
The Modular toolkit for Data Processing (MDP) ,用于数据处理的模块化工具包,一个Python数据处理框架 。
从用户的观点 , MDP是能够被整合到数据处理序列和更复杂的前馈网络结构的一批监督学习和非监督学习算法和其他数据处理单元 。计算依照速度和内存需求而高效的执行 。从科学开发者的观点,MDP是一个模块框架,它能够被容易地扩展 。新算法的实现是容易且直观的 。新实现的单元然后被自动地与程序库的其余部件进行整合 。MDP在神经科学的理论研究背景下被编写 , 但是它已经被设计为在使用可训练数据处理算法的任何情况中都是有用的 。其站在用户一边的简单性,各种不同的随时可用的算法,及应用单元的可重用性,使得它也是一个有用的教学工具 。
项目主页:
如何利用 Python 实现 SVM 模型我先直观地阐述我对SVM的理解,这其中不会涉及数学公式,然后给出Python代码 。
SVM是一种二分类模型,处理的数据可以分为三类:
线性可分,通过硬间隔最大化,学习线性分类器
近似线性可分,通过软间隔最大化,学习线性分类器
线性不可分 , 通过核函数以及软间隔最大化,学习非线性分类器
线性分类器 , 在平面上对应直线;非线性分类器,在平面上对应曲线 。
硬间隔对应于线性可分数据集,可以将所有样本正确分类,也正因为如此,受噪声样本影响很大 , 不推荐 。
软间隔对应于通常情况下的数据集(近似线性可分或线性不可分),允许一些超平面附近的样本被错误分类,从而提升了泛化性能 。
如下图:
实线是由硬间隔最大化得到的,预测能力显然不及由软间隔最大化得到的虚线 。
对于线性不可分的数据集,如下图:
我们直观上觉得这时线性分类器 , 也就是直线,不能很好的分开红点和蓝点 。
但是可以用一个介于红点与蓝点之间的类似圆的曲线将二者分开,如下图:
我们假设这个黄色的曲线就是圆,不妨设其方程为x^2 y^2=1,那么核函数是干什么的呢?
我们将x^2映射为X,y^2映射为Y,那么超平面变成了X Y=1 。
那么原空间的线性不可分问题,就变成了新空间的(近似)线性可分问题 。
此时就可以运用处理(近似)线性可分问题的方法去解决线性不可分数据集的分类问题 。
---------------------------------------------------------------------------------------------------------------------------
以上我用最简单的语言粗略地解释了SVM,没有用到任何数学知识 。但是没有数学,就体会不到SVM的精髓 。因此接下来我会用尽量简洁的语言叙述SVM的数学思想,如果没有看过SVM推导过程的朋友完全可以跳过下面这段 。
对于求解(近似)线性可分问题:
由最大间隔法 , 得到凸二次规划问题,这类问题是有最优解的(理论上可以直接调用二次规划计算包 , 得出最优解)
我们得到以上凸优化问题的对偶问题,一是因为对偶问题更容易求解,二是引入核函数,推广到非线性问题 。
求解对偶问题得到原始问题的解,进而确定分离超平面和分类决策函数 。由于对偶问题里目标函数和分类决策函数只涉及实例与实例之间的内积,即xi,xj 。我们引入核函数的概念 。
拓展到求解线性不可分问题:
如之前的例子,对于线性不可分的数据集的任意两个实例:xi,xj 。当我们取某个特定映射f之后,f(xi)与f(xj)在高维空间中线性可分,运用上述的求解(近似)线性可分问题的方法,我们看到目标函数和分类决策函数只涉及内积f(xi),f(xj) 。由于高维空间中的内积计算非常复杂,我们可以引入核函数K(xi,xj)=f(xi),f(xj),因此内积问题变成了求函数值问题 。最有趣的是,我们根本不需要知道映射f 。精彩!
我不准备在这里放推导过程,因为已经有很多非常好的学习资料,如果有兴趣,可以看:CS229 Lecture notes
最后就是SMO算法求解SVM问题,有兴趣的话直接看作者论文:Sequential Minimal Optimization:A Fast Algorithm for Training Support Vector Machines
我直接给出代码:SMO SVM
在线性可分数据集上运行结果:
图中标出了支持向量这个非常完美,支持向量都在超平面附近 。
在线性不可分数据集上运行结果(200个样本):
核函数用了高斯核,取了不同的sigma
sigma=1 , 有189个支持向量,相当于用整个数据集进行分类 。
sigma=10 , 有20个支持向量,边界曲线能较好的拟合数据集特点 。
我们可以看到 , 当支持向量太少,可能会得到很差的决策边界 。如果支持向量太多,就相当于每次都利用整个数据集进行分类,类似KNN 。
Python中怎样编写混合核函数?这个和用不用python没啥关系,是数据来源的问题 。调用淘宝API,使用 api相关接口获得你想要的内容,我 记得api中有相关的接口,你可以看一下接口的说明 。用python做爬虫来进行页面数据的获龋 。
【核函数模型python 核函数知乎】核函数模型python的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于核函数知乎、核函数模型python的信息别忘了在本站进行查找喔 。
推荐阅读
- 关注过的公众号怎么删除,关注过的公众号怎么删除不了
- ios淘宝分身怎么弄,苹果系统淘宝分身
- 怎样运营多个公众号号微信,怎么拥有多个微信公众号
- windows系统试用版的简单介绍
- 如何入住电商平台,如何入住电商平台
- 小翔爱游戏竞速赛车,小翔爱玩游戏的个人频道
- oracle如何创建表列 oracle怎么建表
- 怎么防止硬盘数据恢复,防止硬盘数据被侵害的方法
- 小米7怎么添加小程序应用,小米7怎么添加小程序应用到桌面