什么是多元线性回归– MLR?
多元线性回归(MLR),也简称为多元回归,是一种统计技术,它使用多个解释变量来预测响应变量的结果。 多元线性回归(MLR)的目标是为解释性(独立)变量与响应(因变量)之间的线性关系建模。
本质上,多元回归是普通最小二乘(OLS)回归的扩展,涉及多个解释变量。
首先是公式:
文章图片
y = 是因变量
x = 解释变量
β 0 = 截距
β p = 每个的变量倾斜系数
解释多元线性回归
简单的线性回归是允许分析人员或统计人员基于已知的另一变量的信息对一个变量进行预测的功能。仅当线性回归具有两个连续变量时,才可以使用线性回归:自变量和因变量。自变量是用于计算因变量或结果的参数。多元回归模型扩展到几个解释变量。
多元回归模型基于以下假设:
因变量和自变量之间存在线性关系。
自变量彼此之间的相关性不是很高。
yi观测值是从总体中独立且随机选择的。
残差的正态分布应为平均值0和方差σ。
确定系数(R平方)是一种统计量度,用于测量结果变量中的多少可以通过自变量中的变量来解释。 R2总是随着向MLR模型添加更多的预测变量而增加,即使这些预测变量可能与结果变量无关。
因此,R2本身不能用于识别模型中应包含哪些预测变量,应排除哪些预测变量。 R2只能介于0和1之间,其中0表示结果不能由任何自变量预测,而1表示可以预测结果而自变量没有错误。
在解释多元回归的结果时,β系数在保持所有其他变量不变(“其他均相等”)的同时有效。多元回归的输出可以水平显示为方程式,也可以垂直显示为表格形式。
多重线性回归的例子
例如,分析师可能想知道市场的波动如何影响埃克森美孚(XOM)的价格。在这种情况下,他的线性方程式将以S&P 500指数的值作为自变量或预测变量,以XOM的价格作为因变量。
实际上,有多种因素可以预测事件的结果。例如,埃克森美孚的价格走势不仅取决于整个市场的表现。其他预测因素,例如石油价格,利率和石油期货价格走势,可能会影响XOM的价格和其他石油公司的股价。为了理解其中存在两个以上变量的关系,使用了多元线性回归。
多元线性回归(MLR)用于确定许多随机变量之间的数学关系。换句话说,MLR检查多个自变量与一个因变量的关系。一旦确定了每个独立因素以预测因变量,就可以使用有关多个变量的信息来准确预测它们对结果变量的影响程度。该模型以最接近所有单个数据点的直线(线性)形式创建关系。
在我们的示例中,参考上面的MLR公式:
文章图片
最小二乘估计值B0,B1,B2…Bp通常由统计软件计算。回归模型中可以包含许多变量,其中每个自变量用数字1,2,3,4 … p进行区分。多元回归模型允许分析师基于在多个解释变量上提供的信息来预测结果。
尽管如此,该模型并不总是完全准确的,因为每个数据点可能与模型预测的结果略有不同。剩余值E是实际结果与预测结果之间的差,已包含在模型中以说明这种微小变化。
假设我们通过统计计算软件运行XOM价格回归模型,该模型将返回以下输出:
文章图片
多元线性回归的输出以预测埃克森美孚的股价
分析师会将此输出解释为,如果其他变量保持不变,则如果市场上的石油价格上涨1%,XOM的价格将上涨7.8%。该模型还显示,随着利率上升1%,XOM的价格将下降1.5%。 R2表示埃克森美孚股价变化的86.5%可以用利率,石油价格,石油期货和S&P 500指数的变化来解释。
线性回归与多元回归之间的差异
线性(OLS)回归比较给定变量在某些说明性变量发生变化时的响应。 但是,很少有因变量仅由一个变量解释。 在这种情况下,分析师使用多元回归,该回归尝试使用多个自变量来解释因变量。 多元回归可以是线性的也可以是非线性的。
【多元线性回归学习小结】多元回归基于以下假设:因变量和自变量之间都存在线性关系。 它还假设自变量之间没有主要的相关性。
推荐阅读
- 机器学习|【李航统计学习】第 1 章 统计学习方法概论 笔记
- 机器学习系列文章|利用随机森林对特征重要性进行评估(公式原理)
- 机器学习|(8)机器学习——SVM、决策树、朴素贝叶斯、KNN、K-means、随机森林、Adaboost
- 机器学习|神经网络(二)回归与线性模型
- 机器学习|机器学习(八)KNN,SVM,朴素贝叶斯,决策树与随机森林
- 机器学习|神经网络(一)基本概念
- 深度学习|迁移学习 & 凯明初始化
- 关于点击率模型,你知道这三点就够了 点击率预估的几个经典模型简介
- 机器学习|机器学习之聚类算法②——DBSCAN