【任务1|【任务1 - 线性回归算法梳理】

【任务1 - 线性回归算法梳理】 时长:2天

  1. 机器学习的一些概念
有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证
监督学习,非监督学习,半监督学习三者的区别是什么,举出一个最有代表性的算法?
为什么神经网络具有泛化能力?
过拟合欠拟合(方差和偏差以及各自解决办法)
泛化能力(generalization ability)是指一个机器学习算法对于没有见过的样本的识别能力。我们也叫做举一反三的能力,或者叫做学以致用的能力。
过拟合(over-fitting)其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。
过拟合是一种分类器会发生的现象,而泛化能力可以理解为对分类器的一种性能的评价
分类器泛化能力低就说明分类器会出现过拟合现象。
欠拟合(under-fitting)是和过拟合相对的现象,可以说是模型的复杂度较低,没法很好的学习到数据背后的规律。
不收敛一般是形容一些基于梯度下降算法的模型,收敛是指这个算法有能力找到局部的或者全局的最小值,(比如找到使得预测的标签和真实的标签最相近的值,也就是二者距离的最小值),从而得到一个问题的最优解。如果说一个机器学习算法的效果和瞎蒙的差不多那么基本就可以说这个算法没有收敛,也就是根本没有去学习。
奥卡姆剃刀原则(Occam’s Razor) 这个原则是说能用简单的方法完成任务的就尽量不要复杂。
https://blog.csdn.net/limiyudianzi/article/details/79626702
  1. 线性回归的原理
    我们有m个样本,每个样本对应于n维特征和一个结果输出,如下:
(x(0)1,x(0)2,...x(0)n,y0),(x(1)1,x(1)2,...x(1)n,y1),...(x(m)1,x(m)2,...x(m)n,ym)
我们的问题是,对于一个新的(x(x)1,x(x)2,...x(x)n, 他所对应的yx是多少呢? 如果这个问题里面的y是连续的,则是一个回归问题,否则是一个分类问题。
  1. 线性回归损失函数、代价函数、目标函数
    这道题有标准答案:http://www.cnblogs.com/Belter/p/6653773.html
    难度不大
  2. 优化方法(梯度下降法、牛顿法、拟牛顿法等)

    【任务1|【任务1 - 线性回归算法梳理】
    文章图片
    如图所示
5、线性回归的评估指标
分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE、R-Squared
【【任务1|【任务1 - 线性回归算法梳理】】6、sklearn参数详解
参考官方文档,真没人写的比官方文档好了。

    推荐阅读