机器学习之回归

原文地址
多元线性回归概念原文链接:
??在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。社会经济现象的变化往往受到多个因素的影响,例如,家庭消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响。因此,一般要进行多元回归分析,我们把包括两个或两个以上自变量的回归称为多元线性回归。一元线性回归是一个主要影响因素作为自变量来解释因变量的变化。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。
??多元线性回归与一元线性回归类似,可以用最小二乘法估计模型参数,也需对模型及模型参数进行统计检验。
??选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决。
多元线性回归服从正态分布:
多元线性回归要求服从高斯分布也就是正态分布。
正态分布函数:
多元线性回归模型:
多元线性回归模型为:
??其中,b0为常数项,b1,b2…bk为回归系数,b1为X1,X2…Xk固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数;同理b2为X1,X2…Xk固定时,x2每增加一个单位对y的效应,即,x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为:
??用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为:
??解此方程可求得b0,b1,b2的数值。亦可用下列矩阵法求得:
??即:
??最大似然估计和最小二乘法:
??又比如两个变量:
??使用最大似然估计解释最小二乘:
??高斯的对数似然与最小二乘:
多元回归模型的检测与评价:
【机器学习之回归】??多元性回归模型与一元线性回归模型一样,在得到参数的最小二乘法的估计值之后,也需要进行必要的检验与评价,以决定模型是否可以应用。需要以下几个步骤:
1、拟合程度的测定
??与一元线性回归中可决系数R2相对应,多元线性回归中也有多重可决系数R2,它是在因变量的总变化中,由回归方程解释的变动(回归平方和)所占的比重,R2越大,回归方各对样本数据点拟合的程度越强,所有自变量与因变量的关系越密切。计算公式为:
2.估计标准误差
??估计标准误差,即因变量y的实际值与回归方程求出的估计值 之间的标准误差,估计标准误差越小,回归方程拟合程度越好。
??其中,k为多元线性回归方程中的自变量的个数。
3.回归方程的显著性检验
??回归方程的显著性检验,即检验整个回归方程的显著性,或者说评价所有自变量与因变量的线性关系是否密切。能常采用F检验,F统计量的计算公式为:
??根据给定的显著水平a,自由度(k,n-k-1)查F分布表,得到相应的临界值Fa,若F > Fa,则回归方程具有显著意义,回归效果显著:F 多元线性回归的应用:
(1)确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式;
(2)根据一个或几个变量的值,预测或控制另一个变量的取值,并且可以知道这种预测或控制能达到什么样的精确度;
(3)进行因素分析。例如在对于共同影响一个变量的许多变量(因素)之间,找出哪些是重要因素,哪些是次要因素,这些因素之间又有什么关系等等。
??实际生活中,多元线性回归可以分析许多东西,如:居民储蓄存款的影响因素分析,房价的影响因素分析,医疗费用的分析,老人高血压的影响因素分析,艾滋病患者生活质量分析。
————————————————
版权声明:本文为CSDN博主「luolyl061806」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。

    推荐阅读