python回归输出函数 python 回归( 七 ) _变量

In [17]: plt.scatter(X.GNP, y, alpha=0.3) ＃画出原始数据
＃分别给 x 轴和 y 轴命名
In [18]: plt.xlabel("Gross National Product")
In [19]: plt.ylabel("Total Employment")
In [20]: plt.plot(X_prime[:,1], y_hat, 'r', alpha=0.9) ＃添加回归线，红色
多元线性回归（预测变量不止一个）
我们用一条直线来描述一元线性模型中预测变量和结果变量的关系，而在多元回归中，我们将用一个多维（p）空间来拟合多个预测变量。下面表现了两个预测变量的三维图形：商品的销量以及在电视和广播两种不同媒介的广告预算。
数学模型是：
Sales = beta_0 + beta_1＊TV + beta_2＊Radio
图中，白色的数据点是平面上的点，黑色的数据点事平面下的点。平面的颜色是由对应的商品销量的高低决定的，高是红色，低是蓝色。
利用 statsmodels 进行多元线性回归
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: import statsmodels.api as sm
In [4]: df_adv=pd.read_csv('g.csv',index_col=0)
In [6]: X=df_adv[['TV','Radio']]
In [7]: y=df_adv['Sales']
In [8]: df_adv.head()
Out[8]:
TVRadioNewspaperSales
1230.137.869.222.1
244.539.345.110.4
317.245.969.39.3
4151.541.358.518.5
5180.810.858.412.9
In [9]: X=sm.add_constant(X)
In [10]: est=sm.OLS(y,X).fit()
In [11]: est.summary()
Out[11]:
你也可以使用 statsmodels 的 formula 模块来建立多元回归模型
In [12]: import statsmodels.formula.api as smf
In [13]: est=smf.ols(formula='Sales ~ TV + Radio',data=https://www.04ip.com/post/df_adv).fit()
处理分类变量
性别或地域都属于分类变量。
In [15]: df= pd.read_csv('httd.edu/~tibs/ElemStatLearn/datasets/SAheart.data', index_col=0)
In [16]: X=df.copy()
利用 dataframe 的 pop 方法将 chd 列单独提取出来
In [17]: y=X.pop('chd')
In [18]: df.head()
Out[18]:
sbptobaccoldladiposityfamhisttypeaobesityalcohol\
row.names
116012.005.7323.11Present4925.3097.20
21440.014.4128.61Absent5528.872.06
31180.083.4832.28Present5229.143.81
41707.506.4138.03Present5131.9924.26
513413.603.5027.78Present6025.9957.34
agechd
row.names
1521
2631
3460
4581
5491
In [19]: y.groupby(X.famhist).mean()
Out[19]:
famhist
Absent0.237037
Present0.500000
Name: chd, dtype: float64
In [20]: import statsmodels.formula.api as smf
In [21]: df['famhist_ord']=pd.Categorical(df.famhist).labels
In [22]: est=smf.ols(formula="chd ~ famhist_ord", data=https://www.04ip.com/post/df).fit()
分类变量的编码方式有许多，其中一种编码方式是虚拟变量编码（dummy－encoding），就是把一个 k 个水平的分类变量编码成 k－1 个二分变量。在 statsmodels 中使用 C 函数实现。
In [24]: est=smf.ols(formula="chd ~ C(famhist)", data=https://www.04ip.com/post/df).fit()
In [26]: est.summary()
Out[26]:
处理交互作用
随着教育年限（education）的增长，薪酬 (wage) 会增加吗？这种影响对男性和女性而言是一样的吗？
这里的问题就涉及性别与教育年限的交互作用。
换言之，教育年限对薪酬的影响是男女有别的。
＃导入相关模块
In [1]: import pandas as pd
In [2]: import numpy as np
In [4]: import statsmodels.api as sm
＃导入数据，存入 dataframe 对象
In [5]: df=pd.read_csv('/Users/xiangzhendong/Downloads/pydatafromweb/wages.csv')
In [6]: df[['Wage','Education','Sex']].tail()
Out[6]:
WageEducationSex
52911.36180
5306.10121
53123.25171
53219.88120
53315.38160
由于性别是一个二分变量，我们可以绘制两条回归线，一条是 sex＝0（男性），一条是 sex＝1（女性）

python回归输出函数 python 回归( 七 )

推荐阅读

清蒸大闸蟹如何吃如何吃螃蟹

洗衣机要垫架子吗洗衣机为什么要加垫

iapo,IApo上市是什么意思

温泉

时钟下载安装桌面,数字时钟下载安装桌面

遇到松下洗衣机h07故障代码怎么办？3个处理方法帮助你

母亲的花儿

纸袋精是什么意思

pcsk9抑制剂|新型降脂药PCSK9抑制剂，比他汀类更强效，更安全，半年一次

跨境电商运营问hr什么问题好跨境电商运营问hr什么问题，跨境电商运营问hr什么问题

3dmax2018安装序列号和产品密钥

冯小刚成了今年电影圈第一个吃螃蟹的人冯小刚演过的电影

中超球票价格山东鲁能球票如何从网上购买，网上买cba球票

华为5g|倒计时两天华为正式发布谁也没有想到，更大惊喜还在后面

课外辅导机构合法吗课外辅导机构还能开吗

炒熟的番茄可以美白吗

小爱|潮流延续，魅力绽放——小米手表Color2深度体验评测

怎么看股票会涨怎么看股市

第二次烧开的水能喝吗？

彩色激光一体机,惠普彩色激光打印一体机故障率