机器学习|datawhale学习之一西瓜书和南瓜书概论

第1章 绪论
对于一个学习算法a,若它在某问题上比学习算法b好,则必然存在另一些问题,在那里b比a好.即"没有免费的午餐"定理(No Free Lunch Theorem,NFL).因此要谈论算法的相对优劣,必须要针对具体的学习问题
.1引言
1.2基本术语
按照课文给的实例,关于西瓜的数据。
数据集:整个所给的数据的集合称为数据集
样本/示例:一个事件或者对象,这里的是一个西瓜
属性/特征:事件或者对象的某方面的表现或性质,比如西瓜的色泽,根蒂,敲声
属性值:属性的取值,比如色泽属性可以取青绿、乌黑
属性空间/样本空间/输入空间:整个属性张成的空间,比如把上述的三个属性在一个三维坐标中表示出
一个西瓜的三位空间,每一个西瓜都可以在在这个空间中找到自己的位置。
特征向量:空间中的每一个点都对应一个坐标向量,所以每一个样本也可以称为特征向量
训练数据:用于训练的数据
训练样本:训练数据中的每一一个样本
标记空间/输出空间:所有输出的集合
分类:预测的是离散值
【机器学习|datawhale学习之一西瓜书和南瓜书概论】回归:预测的是连续值
二分类:只涉及两个类别的任务,其中一个称为正类,另一个为负类
多分类:
聚类:训练集中的样本分成若干个组,每一组称为一个‘簇’
监督学习:有标记信息,(分类,回归)
无监督学习:无标记信息(聚类)
泛化能力:学得的模型能够适用于新样本的能力
1.3假设空间
归纳:从特殊到一般(广义归纳:相当于从样本中学习。狭义归纳:从训练集中学的概念,因此称为概念学习)
演绎:从一般到特殊
概念学习:最基本的就是布尔概念学习
假设集合/版本空间:有多个假设与训练集一致,即与训练集一致。
1.4归纳偏好
归纳偏好:机器学习算法在学习的过程中对某种类型假设的偏好
奥卡姆剃刀:若多个假设与观察一致,则选择最简单的一个。
第2章 模型评估与选择
m次n折交叉验证实际上进行了m*n次训练和测试
可以用F1度量的一般形式Fβ来表达对查准率/查全率的偏好:
偏差度量了学习算法的期望预测与真实结果的偏离程度,即学习算法本身的拟合能力,方差度量了同样大小的训练集的变动所导致的学习性能的变化,即数据扰动造成的影响.噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,即学习问题本身的难度.
2.1 经验误差与过拟合
错误率:错误样本数a/样本总数m E=a/m
精度:1-a/m,1-错误率
误差:实际预测输出与真实值之间的差异
训练误差/经验误差:学习器在训练集上的误差
泛化误差:在新样本上的误差
过拟合:学习器学的太过了,把一些训练样本本身的特点当作所有潜在样本都会有的一般性质,导致泛化能力下降。比如说给的训练样本中大
多数是由锯齿的形状,学习器就把这一性质当作是所有的叶子都有的性质,当预测没有锯齿的叶子就会输出不是叶子的错误预测。
欠拟合:与过拟合相反,一些性质没有学好。
2.2 评估方法
*1 留出法:直接拆分为两个互斥的集合,一个作为训练集,一个作为测试集
*2 交叉验证法(K折验证法):将数据集分成k个互斥的集合,然后每次用k-1个作为训练集,1个为测试集。
*3自助法:随机的从数据集D中选一个数复制到D’中,大约有36.8%的样本会不出现在D’中。将D’作为训练集,将D/D’(合集减法)作为测试集。
2.3 性能度量
*1 均方误差:
*2 错误率与精度
*3 查准率、查全率与F1
二分类问题,可将样例根据真实类别和学习器预测类别的组合划分为:TP真正例;FP假证例;TN真反例;FN假反例
A曲线把C曲线完全包住,所以A的性能优于学习器C。但是A,B两个学习器需要进一步比较。
平衡点(BEP):查全率=查准率时的取值
F1度量:
F1度量的一般形式,能够表达出对查准率/查全率的不同偏好:
β > 1时,查全率重要;<1时查准率重要
*4 ROC,AUC
ROC(受试者工作特征):纵轴——真正利率TRP,横轴——假正例率FRP
*5 代价铭感错误率和代价曲线

    推荐阅读