python多元函数回归 python 多元回归分析( 四 )


3.1 多重判定系数:(Multiple coefficient of determination)
R2=SSRSST=1?SSESST
R2=SSRSST=1?SSESST
注解:
(1 ) 对于多重判定系数有一点特别重要的需要说明:自变量个数的增加将影响到因变量中被估计的回归方程所解释的变量数量 。当增加自变量时,会使预测误差变得较小,从而减小残差平方和 SSESSE 。自然就会是 SSRSSR变大 。自然就会是 R2R2变大 。这就会引发一个问题 。如果模型中增加一个自变量,即使这个自变量在统计上并不显著, R2R2的值也会变大 。因此为了避免这个问题 。提出了 调整的多种判定系数(adjusted multiple coefficient of determination):
R2a=1?(1?R2)(n?1n?k?1)
Ra2=1?(1?R2)(n?1n?k?1)
R2aRa2 同时考虑了样本量 (n)(n) 和模型中自变量的个数 (k)(k) 的影响,这就使得 R2aRa2 的值永远小于 R2R2 , 而且 R2aRa2 的值不会因为模型中自变量的个数增多而逐渐接近于 11.
(2 ) R2R2 的平方根成为多重相关系数 , 也称为复相关系数,它度量了因变量同 kk 个自变量的相关程度 。
3.2 估计标准误差
同一元线性回归一样,多元回归中的估计标准误差也是误差项 εε 的方差 σ2σ2 的一个估计值,
se=SSEn?k?1????????√=MSE?????√
se=SSEn?k?1=MSE
4. 显著性检验
在此重点说明,在一元线性回归中,线性关系的检验 (F检验)(F检验) 和回归系数的检验 (t检验)(t检验) 是等价的 。但是在多元回归中 , 线性关系的检验主要是检验因变量同多个自变量线性关系是否显著,在 kk 个自变量中,只要有一个自变量与因变量的线性关系显著,F检验F检验 就能通过,但这不一定意味着每个自变量与因变量的关系都显著 。回归系数检验则是对每个回归系数分别进行单独的检验,它主要用于检验每个自变量对因变量的影响是否都显著 。如果某个自变量没有通过检验,就意味着这个自变量对因变量的影响不显著,也许就没有必要将这个自变量放进回归模型中 。
4.1 线性关系的检验
步骤:
(1):提出假设
H0:β1=β2=…=βk=0
H0:β1=β2=…=βk=0
H1:β1,β2,…=βk至少有一个不等于0
H1:β1,β2,…=βk至少有一个不等于0
(2):计算检验的统计量F.
F=SSR/kSSE/(n?k?1)≈F(k,n?k?1)
F=SSR/kSSE/(n?k?1)≈F(k,n?k?1)
(3):作出统计决策 。
4.2 线性关系的检验
步骤:
(1):提出假设
H0:βi=0
H0:βi=0
H1:βi≠0
H1:βi≠0
(2):计算检验的统计量F.
ti=βi^sβi^≈t(n?k?1)
ti=βi^sβi^≈t(n?k?1)
(3):作出统计决策 。
5.1 多重共线性
多重共线性:当回归模型中两个或两个以上的变量彼此相关时,则称回归模型中存在多重共线性 。
多重共线性的判别:
(1)模型中中各对自变量之间显著相关
(2)当模型的线性关系检验 (F检验)(F检验) 显著时,几乎所有的回归系数 βiβi 的 tt 检验却不显著 。
(3)回归系数的正负号与预期的相反 。
(4)容忍度(tolerance) 与 方差扩大因子(variance inflation factor, VIF).
容忍度:某个变量的容忍度等于 1 减去该自变量为因变量而其他 k?1k?1 个自变量为预测变量时所得到的线性回归模型的判定系数 。即 1?R2i1?Ri2 。容忍度越小,多重共线性越严重 。通常认为 容忍度小于 0.1 时,存在严重的多重共线性 。
方差扩大因子:容忍度的倒数 。因此,VIFVIF 越大,多重共线性越严重,一般认为 VIFVIF 的值大于10时 , 存在严重的多重共线性 。
5.2 多重共线性的处理
常见的两种办法:
(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关 。

推荐阅读