【任务1|【任务1 - 线性回归算法梳理】【任务1-线性回归算法梳理】

【任务1 - 线性回归算法梳理】时长：2天

机器学习的一些概念

有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证
监督学习，非监督学习，半监督学习三者的区别是什么，举出一个最有代表性的算法？
为什么神经网络具有泛化能力？
过拟合欠拟合(方差和偏差以及各自解决办法)
泛化能力（generalization ability）是指一个机器学习算法对于没有见过的样本的识别能力。我们也叫做举一反三的能力，或者叫做学以致用的能力。
过拟合（over-fitting）其实就是所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越，导致在验证数据集以及测试数据集中表现不佳。
过拟合是一种分类器会发生的现象，而泛化能力可以理解为对分类器的一种性能的评价
分类器泛化能力低就说明分类器会出现过拟合现象。
欠拟合（under-fitting）是和过拟合相对的现象，可以说是模型的复杂度较低，没法很好的学习到数据背后的规律。
不收敛一般是形容一些基于梯度下降算法的模型，收敛是指这个算法有能力找到局部的或者全局的最小值，（比如找到使得预测的标签和真实的标签最相近的值，也就是二者距离的最小值），从而得到一个问题的最优解。如果说一个机器学习算法的效果和瞎蒙的差不多那么基本就可以说这个算法没有收敛，也就是根本没有去学习。
奥卡姆剃刀原则（Occam’s Razor）这个原则是说能用简单的方法完成任务的就尽量不要复杂。
https://blog.csdn.net/limiyudianzi/article/details/79626702

线性回归的原理
我们有m个样本，每个样本对应于n维特征和一个结果输出，如下：

(x(0)1,x(0)2,...x(0)n,y0),(x(1)1,x(1)2,...x(1)n,y1),...(x(m)1,x(m)2,...x(m)n,ym)
我们的问题是，对于一个新的(x(x)1,x(x)2,...x(x)n, 他所对应的yx是多少呢？如果这个问题里面的y是连续的，则是一个回归问题，否则是一个分类问题。