r语言|统计学--基于R（第3版）（基于R应用的统计学丛书）作者（贾俊平习题答案第十章） r语言|大数据

10.1

#10.1 load("C:/exercise/ch10/exercise10_1.RData") exercise10_1 #(1)用电视广告费用和报纸广告费用作自变量，建立估计的回归方程，并说明回归系数的意义。 #回归模型的拟合 model1<-lm(月销售收入~电视广告费用+报纸广告费用,data=https://www.it610.com/article/exercise10_1) summary(model1) #计算回归系数的置信区间 confint(model1,level=0.95) #输出方差分析表 anova(model1) #β^1=2.2902表示，在报纸广告费用不变的条件下，电视广告费用每变动1万元，月销售收入平均变动2.2902万元 #β^2=1.3010表示，在电视广告费用不变的条件下，报纸广告费用每变动1万元，月销售收入平均变动1.3010万元 #y^=832.3009+2.2902x1+1.3010x2 #(2)对回归模型做综合评估###################### #绘制残差图诊断模型 par(mfrow=c(1,2),mai=c(0.8,0.8,0.4,0.1),cex=0.8,cex.main=0.7) plot(model1,which=1:2) #(3)给定电视广告费用为30万元，报纸广告费用为20万元，求月销量收入95%的置信区间和预测区间 #计算置信区间和预测区间 model2<-lm(月销售收入~电视广告费用+报纸广告费用,data=exercise10_1) x<-exercise10_1[,c(2,3)] pre<-predict(model2) res<-residuals(model2) zre<-rstandard(model2) con_int<-predict(model2,x,interval="confidence",level=0.95) pre_int<-predict(model2,x,interval="prediction",level=0.95) mysummary<-data.frame(月销售收入=exercise10_1$月销售收入,点预测值=pre,残差=res,标准化残差=zre,置信下限=con_int[,2],置信上限=con_int[,3],预测下限=pre_int[,2],预测上限=pre_int[,3]) round(mysummary,3)

【r语言|统计学--基于R（第3版）（基于R应用的统计学丛书）作者（贾俊平习题答案第十章）】10.2

#10.2 load("C:/exercise/ch10/exercise10_2.RData") exercise10_2 #(1)建立早稻收获量对春季降雨量和春季温度的二元线性回归方程，并对回归模型的线性关系和回归系数进行检验(α=0.05),你认为模型中是否存在多重共线性？ #回归模型的拟合 model1<-lm(收获量~降雨量+温度,data=https://www.it610.com/article/exercise10_2) summary(model1) #计算回归系数的置信区间 confint(model1,level=0.95) #输出方差分析表 anova(model1) #y^= -1402.707516-4.268921x1+53.364699x2 #绘制残差图诊断模型 par(mfrow=c(1,2),mai=c(0.8,0.8,0.4,0.1),cex=0.8,cex.main=0.7) plot(model1,which=1:2) #如图可对去掉第1，3，6三个点后进行回归及诊断 #线性系数及回归系数检验分析可见课本277页相关内容 #多重共线性的识别和处理 #自变量之间的相关系数及其检验 library(psych) corr.test(exercise10_2[2:3],use="complete") #计算容忍度和VIF library(car) vif(model1)#vif 1/vif(model1)#容忍度 #容忍度均小于0.1，vif均大于10，认为存在严重共线性 #(2)比较降雨量和温度在预测收获量中的相对重要性 library(lm.beta) model.beta<-lm.beta(model1) summary(model.beta) #按标准化回归系数的绝对值大小排序，0.5896>0.4146,温度是预测收获量的最重要的变量

10.3

#10.3 load("C:/exercise/ch10/exercise10_3.RData") exercise10_3 #(1)用不良贷款作因变量，建立多元线性回归方程 #回归模型的拟合 model1<-lm(不良贷款~贷款余额+应收贷款+贷款项目个数+固定资产投资,data=https://www.it610.com/article/exercise10_3) summary(model1) #y^=-1.02164+0.04004x1+0.14803x2+0.01453x3-0.02919x4 #(2)分析模型中是否存在共线性 #自变量之间的相关系数及其检验 library(psych) corr.test(exercise10_3[2:5],use="complete") #观测结果可得是否存在 #计算容忍度和VIF library(car) vif(model1) 1/vif(model1)#容忍度 #由以上结果可见，容忍度均大于0.1，VIF均小于10，说明该回归模型共线性不严重 #(3)用逐步回归方法建立回归模型 #变量选择 model2<-step(model1) #拟合逐步回归模型 model2<-lm(不良贷款~贷款余额+应收贷款+固定资产投资,data=https://www.it610.com/article/exercise10_3) summary(model2) #逐步回归的方差分析表 anova(model2) #y^=-0.971605+0.041039x1+0.148858x2-0.028502x4 #(4)比较4个自变量在不良贷款中的相对重要性 library(lm.beta) model1.beta<-lm.beta(model1) summary(model1.beta) #β1=0.89131，β2=0.25982，β3=0.03447，β4=-0.32492 #按标准化回归系数绝对值大小排序，可见重要性按贷款余额、固定资产投资、应收贷款、贷款项目个数顺序依次降低 #(5)用anova和AIC两种方法对模型进行比较和分析 model1<-lm(不良贷款~贷款余额+应收贷款+贷款项目个数+固定资产投资,data=exercise10_3) model2<-lm(不良贷款~贷款余额+应收贷款+固定资产投资,data=exercise10_3) anova(model2,model1) #p=0.8629,不拒绝H0（x3不会对y的预测提供信息）,没证据表明两个模型由显著差异，从回归模型的简约原则看，选择逐步回归模型 AIC(model2,model1) #逐步回归模型的AIC更小，说明它比包含4个自变量的模型更好

10.4

#10.4 load("C:/exercise/ch10/exercise10_4.RData") exercise10_4 #(1)建立月薪与工龄的一元回归模型 model_s<-lm(月薪~工龄,data=https://www.it610.com/article/exercise10_4) summary(model_s) #方差分析表 anova(model_s) #y^=5249.7+327.2x1 #(2)建立月薪与工龄和性别的二元回归模型 model_dummy<-lm(月薪~工龄+性别,data=exercise10_4) summary(model_dummy) #方差分析表 anova(model_dummy) #y^=6190.74+111.22x1-458.68x2 #(3)对两个模型进行比较，看看引入性别这一哑变量对预测月薪是否有用 anova(model_s,model_dummy) AIC(model_s,model_dummy) #由于p=1.823e-06,拒绝H0,表示两个模型有显著差异，而且model_dummy的AIC较小，这意味着引入性别这一哑变量对预测月薪效果有显著影响