您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 第4章 多元相关与回归分析及R使用(王斌会)
第4章多元相关与回归分析及R使用多元统计分析及R语言建模-1-王斌会教授多元统计分析及R语言建模内容与要求变量间的关系分析与回归分析。多元相关回归分析的目的和基本思想,回归变量选择及逐步回归分析方法。在学生已具有的(一元)相关与回归分析的基础知识上,掌握和应用多元线性相关与回归分析。多元统计分析及R语言建模本节内容1简单相关分析的R计算2一元线性回归分析的R计算4多元相关与回归分析及R使用4多元相关与回归分析及R使用两变量线性相关系数4多元相关与回归分析及R使用说明与举例【例4-1】(续例2-2)身高与体重的相关关系分析。下面以例2-2的身高与体重数据分析。4多元相关与回归分析及R使用数据输出:plot(x1,x2)通过散点图看身高与体重的关系x1=c(171,175,159,155,152,158,154,164,168,166,159,164)x2=c(57,64,41,38,35,44,41,51,57,49,47,46)4多元相关与回归分析及R使用数据输出:lxy-(x,y)sum(x*y)-sum(x)*sum(y)/length(x)r=lxy(x1,x2)/sqrt(lxy(x1,x1)*lxy(x2,x2))r[1]0.95934多元相关与回归分析及R使用相关系数的假设检验n=length(x1)#向量的长度tr=r/sqrt((1-r^2)/(n-2))#相关系数假设检验t统计量tr[1]10.744多元相关与回归分析及R使用相关系数的假设检验cor.test(x1,x2)#相关系数假设检验Pearson'sproduct-momentcorrelationdata:x1andx2t=10.743,df=10,p-value=8.21e-07alternativehypothesis:truecorrelationisnotequalto095percentconfidenceinterval:0.85748750.9888163sampleestimates:cor0.95930314多元相关与回归分析及R使用说明与举例【例4-2】下面仍以例2-2的数据来介绍建立直线回归方程的步骤。4多元相关与回归分析及R使用x=x1#自变量,数据来自例2.2y=x2#因变量,数据来自例2.2b=lxy(x,y)/lxy(x,x)#线性回归方程斜率a=mean(y)-b*mean(x)#线性回归方程截距c(a=a,b=b)#显示线性回归方程估计值ab-140.364361.15906plot(x,y)#做散点图lines(x,a+b*x)#添加估计方程线4.1变量间的关系分析其中其中【例4-3】以下收集了我国自1978年改革开放以来到2008年共31年的税收(x,百亿元)和财政收入(y,百亿元)数据,试分析税收与财政收入之间的依存关系。4.1变量间的关系分析#在mvstats4.xls:d4.3中选取数据,拷贝作回归直线:yX=read.table(clipboard,header=T)(fm=lm(y~x1+x2+x3+x4,data=yX))Call:lm(formula=y~x,data=yx)Coefficients:(Intercept)x-1.1971.1164.1变量间的关系分析plot(y~x,data=yx)#做散点图abline(fm)#添加回归线anova(fm)#模型方差分析AnalysisofVarianceTableResponse:yDfSumSqMeanSqFvaluePr(F)x1712077712077274272.2e-16***Residuals2975326---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’14.1变量间的关系分析4多元相关与回归分析及R使用回归系数的t检验summary(fm)#回归系数t检验lm(formula=y~x,data=yx)Residuals:Min1QMedian3QMax-6.631-3.692-1.5355.33811.432Coefficients:EstimateStd.ErrortvaluePr(|t|)(Intercept)-1.196601.16126-1.030.311x1.116230.00674165.612e-16***Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:5.095on29degreesoffreedomMultipleR-squared:0.9989,AdjustedR-squared:0.99894多元相关与回归分析及R使用说明与举例【例4-4】在例4-3中我们发现1978-2008年我国财政收入与税收之间存在线性回归关系,为进一步考察财政收入和其它变量之间的数量关系,需建立多元线性回归方程。yX=read.table(clipboard,header=T)fm=lm(y~x1+x2+x3+x4,data=yX)fmCall:lm(formula=y~x1+x2+x3+x4,data=yX)Coefficients:(Intercept)x1x2x3x423.5321-0.0033871.16410.000292-0.043744多元相关与回归分析及R使用library(mvstats)coef.sd(fm)#标准化偏回归系数结果$coef.sdx1x2x3x4-0.017451.04230.00096-0.0371054多元相关与回归分析及R使用4多元相关与回归分析及R使用其中其中4多元相关与回归分析及R使用Coefficients:EstimateStd.ErrortvaluePr(|t|)(Intercept)23.53210884.59907145.1172.47e-05***x1-0.00338660.0080749-0.4190.678x21.16411500.040488928.7512e-16***x30.00029190.00855270.0340.973x4-0.04374160.0092638-4.7227.00e-05***Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1’1Residualstandarderror:2.79on26degreesoffreedomMultipleR-squared:0.9997,AdjustedR-squared:0.9997F-statistic:2.289e+04on4and26DF,p-value:2.2e-16summary(fm)#多元线性回归系数t检验lm(formula=y~x1+x2+x3+x4,data=yX)Residuals:Min1QMedian3QMax-5.0229-2.13540.32971.26396.9690多元统计分析及R语言建模在相关分析中,研究较多的是两个变量之间的关系,称为简单相关;当涉及到的变量为三个或者三个以上时,称为偏相关或复相关。实际上,偏相关和复相关是对简单相关的一种推广。。。。多元统计分析及R语言建模多元统计分析及R语言建模设样本矩阵为:多元统计分析及R语言建模多元统计分析及R语言建模此时任意两个变量间相关系数构成的矩阵为:多元统计分析及R语言建模多元统计分析及R语言建模其中rij为任意两变量之间的简单相关系数:多元统计分析及R语言建模举例与说明(续例4.4)财政收入与其他变量间的相关分析。计算财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口两两之间相关系数,表4.9给出了相关系数的假设检验统计量。首先我们计算变量两两间的相关系数多元统计分析及R语言建模#多元数据相关系数矩阵cor(yX)R语言代码数据输出多元统计分析及R语言建模函数说明由于没有现成的进行相关系数矩阵的假设检验,下面编写计算相关系数的值和值的函数corr.test()。多元统计分析及R语言建模library(mvstats)#多元数据相关系数检验corr.test(yX)R语言代码数据输出从结果可以看出,财政收入和国民生产总值及税收、进出口贸易总额、经济活动人口之间的关系都非常密切,财政收入与税收之间的关系最为密切。多元统计分析及R语言建模复相关分析在实际分析中,一个变量的变化往往要受到多种变量的综合影响,这时就需要采用复相关分析方法。所谓复相关,就是研究多个变量同时与某个变量之间的相关关系,度量复相关程度的指标是复相关系数。多元统计分析及R语言建模多元统计分析及R语言建模假定回归模型为:复相关系数多元统计分析及R语言建模多元统计分析及R语言建模复相关系数计算公式为:复相关系数多元统计分析及R语言建模多元统计分析及R语言建模复相关系数:决定系数决定系数:多元统计分析及R语言建模#显示多元线性回归模型决定系数(R2=summary(fm)$r.sq)R语言代码数据输出#显示多元数据复相关系数(R=sqrt(R2))[1]0.9997[1]0.9999多元统计分析及R语言建模多元统计分析及R语言建模多元回归分析主要用途用于描述解释现象,这时希望回归方程中所包含的自变量尽可能少一些用于预测,这时希望预测的均方误差较小用于控制,这时希望各回归系数具有较小的方差和均方误差多元统计分析及R语言建模多元统计分析及R语言建模变量太多,容易引起的问题变量多增加了模型的复杂计算量增大估计和预测的精度下降模型应用费用增加多元统计分析及R语言建模多元统计分析及R语言建模解决方法全部子集法向后删除法向前引入法逐步回归法多元统计分析及R语言建模全局最优法从理论上说,自变量选择最好的方法是所有可能回归法,即建立因变量和所有自变量全部子集组合的回归模型,也称全部子集法。对于每个模型,在实用上,从数据与模型拟合优劣的直观考虑出发,基于残差(误差)平方和的变量选择准则使用的最多。多元统计分析及R语言建模举例与说明【例4.6】(续例4.4)在“财政收入”数据中,有4个自变量:x1,x2,x3,x4。所有可能的模型可分为5组子集:多元统计分析及R语言建模举例与说明例4.4数据的RSS与R2准则回归子集:多元统计分析及R语言建模library(leaps)#加载leaps包varsel=regsubsets(y~x1+x2+x3+x4,data=yX)result=summary(varsel)data.frame(result$outmat,RSS=result$rss,R2=result$rsq)R语言代码数据输出多元统计分析及R语言建模多元统计分析及R语言建模R2和RSS准则优缺点具有较大R2的对较少自变量的模型应该是好的选择,较大的意味着有好的拟合效果,而较少的变量个数可减轻信息的收集和控制。对于有个自变量的回归模型来说,当自变量子集在扩大时,残差平方和随之减少。因此,如果按RSS“愈小愈好”和按R2”愈大愈好”的原则来选择自变量子集,则毫无疑问应该选全部自变量多元统计分析及R语言建模多元统计分析及R语言建模变量选择的常用准则平均残差平方和最小准则误差均方根MSE最小准则校正复相关系数平方(AdjustedR2)准则Cp准则AIC准则BIC准则多元统计分析及R语言建模举例与说明表4.10例4.4数据的Cp与BIC准则回归子集多元统计分析及R语言建模data.frame(result$outmat,adjR2=result$adjr2,Cp=result$cp,BIC=result$bic)R语言代码数据输出多元统计分析及R语言建模多元统计分析及R语言建模全局择优法的缺陷如果自变量个数为4,则所有的回归有15个,当自变量个数为10时,所有可能的回归为1023个,…,当自变量数个数为50时,所有可能的回归为1015个,当p很大时,数字2p大得惊人,有时计算是不可能的,于是就提出了所谓逐步回归的方法.多元统计分析及R语言建模逐步回归分析在作实
本文标题:第4章 多元相关与回归分析及R使用(王斌会)
链接地址:https://www.777doc.com/doc-3329173 .html