您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 第九章-----回归分析
1第八章回归分析第一节一元线性回归分析第二节可线性化的一元非线性回归问题第三节多元线性回归分析第四节逐步回归分析第五节处理多元线性回归中自变量共线性的几种方法第七节含有定性变量的回归分析第八节通径分析第六节多元非线性回归分析2回归分析(regressionanalysis)是指由自变量的变异来估计因变量的变异问题,具体可通过建立回归方程来实现.在热带作物栽培和加工试验以及作物病虫害预测预报的研究中,回归分析有着极其广泛的应用.如在橡胶树产量研究中,应用回归分析可由蓬距、幼苗期刺检干胶量、叶脉角度等估测产胶量;在橡胶树白粉病研究中,用越冬菌量、温度、湿度及橡胶物候等因子可预测白粉病的流行强度等等.按自变量个数的多少可将回归分析分为一元回归分析和多元回归分析.只考虑一个自变量的回归问题称为一元回归分析,含有两个或两个以上自变量的回归问题称为多元回归分析.以自变量和因变量之间内在联系特征的不同,又可将回归问题分为线性回归和非线性回归分析.本章着重介绍应用国际通用统计软件SAS进行线性和非线性回归分析的方法3一.回归模型第一节一元线性回归分析回归模型建立的直观思想如果对于自变量x的一个观测值xi,因变量y有一个相应的观察值yi与之对应,则称(xi,yi)组成一对观察值.现假定x与y有n对观察值(x1,y1),(x2,y2),…,(xn,yn),把这n个点(xi,yi)画在平面直角坐标系上,得到如图8—1所示的散点图.y=a+bxyx图8—1观测值(xi,yi)散点图4从散点图可以看出,随着自变量x的增加,因变量y也呈现上升的趋势,图中的点大致分布在一条向右方倾斜的直线附近,因而可以用一条直线方程来近似的逼近即yi=b0+b1xi+eii=1,2,…,n其中ei~N(0,s2),ei是相互独立的随机变量序列且它们的方差相同(方差齐性),称为回归直线(方程).对于一元线性回归模型,我们要解决以下问题:(1)参数估计:给出参数b0,b1,s2的估计值.(2)显著性检验:检验线性函数yi=b0+b1xi用来描述因变量y与自变量x的关系是否合适,包括回归模型的显著性检验和参数的显著性检验.(3)模型检查:检查对模型所做的假设是否成立,包括ei是相互独立的随机变量序列的检查和方差齐性的检查.(4)预测或控制.5对b0,b1的估计实际上就是在平面直角坐标系中估计一条直线xy10ˆˆˆbbxy10bbniniiiixyeQ11210210)(),(bbbb二回归模型建立的方法——最小二乘估计使它尽可能地接近回归直线直观的说来就是使理论值和观测值的所有偏差和最小.为了避免正负偏差项互相抵消,因而要求所有偏差平方和最小,即求参数b0,b1,使函数达到最小.6根据二元函数的极值理论,分别求关于两个变量10,bbniniiiixyeQ11210210)(),(bbbb011001100ˆ,ˆ1ˆ,ˆ0bbbbbbbbbbQQ解方程组得的一阶偏导数,并令它们等于零解联立方程组即可.将以上两式展开,得方程组:niiiiniiixxyxy1101100)ˆˆ(0)ˆˆ(bbbbxxyxLLxy110ˆˆˆbbb7称观测值与理论值的差为残差.以上用数学方法对参数进行估计的方法,称为最小二乘估计法.SAS程序直接调用reg过程.一般格式如下:pocregdata=数据集名称;model因变量集=自变量集;(如modely=x;)三一元线性回归模型的检验1.方差分析与F检验1)统计假设原假设备择假设2)平方和与自由度分解即总平方和分解为误差平方和与回归平方和,同时总自由度也分解为误差自由度加上回归自由度,即niiniixxxnxxxL12212)(niiiiniiyxyxnyxyyxxL11)()(iiiyyˆ10,bb0:11bH;0:10bHSSRSSEyyyyyySSTniiniiinii121212)ˆ()ˆ()(RETfdfdfd83)F—统计量若,则拒绝接受说明用函数来描述因变量y与自变量x的关系是合适的,即回归模型是显著性的。4)方差分析表21nSSESSRdfSSEdfSSRFER)2,1(nFF0:11bH;0:10bHiixy10bb方差来源平方和自由度均方F值回归残差总计SSRSSESST1n-2n-1MSR=SSR/1MSE=SSE/n-2F=MSR/MSESSTSSESSTSSRR122.可决定系数R2(判定系数)作为一个相对指标,测度了拟合的回归直线所导致离差平方和占样本的总离差平方和的百分比,因此它也是对回归方程拟合优度的一种测度.R2越接近于1,则说明回归方程对样本点的拟合得越好.93.t—检验0:10bH)2(~ˆˆ1ˆ11nttbsb)1(2/1ntt0:00bH)2(~ˆˆ0ˆ00nttbsb)1(2/0ntt0:10bHt—检验是对回归参数显著性的检验,可以证明以下两个结论:结论1:在零假设对于一元线性回归来说成立的条件下有:拒绝域为:结论2:在零假设成立的条件下有:拒绝域为:的F检验值和t—检验中的t值的概率值p相等.实际上,对于一元线性回归模型来说,上述两个检验是等价的,即都有相同的拒绝域.101.残差图四一元线性回归模型的残差分析(回归诊断)称观测值与理论值的差为残差.而称iiiyyˆ)(iiiDe为标准化残差.残差图以x为坐标横轴,残差e为坐标纵轴,由所有点(xi,ei)构成.残差图可用于检验随机变量序列的独立性,正态性和方差整齐性.从理论上可以证明e1,e2,…en相互独立且近似的服从N(0,1).故关于预测值残差图中的点应随机分布在-2到+2之间的带子形里,这样的残差图称为正常的残差图.ie另一种残差图是用横轴表示因变量的预测值而用纵轴表示残差值ei,即点的坐标为(yi,ei).111.正常的残差图2.直线回归模型不合适3.方差齐性不成立4.误差项不独立图8—2为几种常见的残差图122.方差齐性的诊断及修正方法对于一元线性回归来说,关于x的残差图和关于预测值的残差图提供了同样的信息.对于多元线性回归分析,由于有一个以上的自变量,所以一般采用关于预测值的残差图.误差方差非齐性时,残差图不正常.可通过对因变量作适当的变换,令z=f(y)使得关于因变量的回归分析中误差的方差接近于齐性.实用上常选用一些变换,变换后重新做回归及残差图,如残残差图有改善或已属正常,则该变换是合适的.否则改变变换函数计算直到找到合适的变换为止,常用的方差稳定性变换有:)ln(YZ)0(YYZ)0(1YYZ13在许多回归分析中,所利用的数据是按时间顺序采集的,即时间序列数据,用yt表示y在时刻t的值,而y的值又常常依赖于y在以前时刻的值.此时,称数据存在自相关(序列相关),从而违背了回归模型的假设,误差项已不再是独立的.neee,,,21nttnttteeeD12221)(检验方法为Durbin—Watson统计量:3.Durbin—Watson检验Durbin—Watson统计量的取值介于0和4之间,一个粗略的判断是:若D值在2附近(1.6D2.4),则没有充分的证据证明存在序列相关;若D1.6,则存在正的自相关;若D2.4,则存在负的自相关.具体可通过SAS程序来完成,只需在reg过程后增加选项DW即可,如:procregDW;14五、一元线性回归模型的SAS实施一元线性回归模型的建立可通过国际通用软件SAS实施.具体可直接调用reg过程,一般格式如下:pocregdata=数据集名称;(data=数据集名称可以省略,此时所用的数据集为最近的数据集)model因变量集=自变量集;(如modely=x;)六、应用实例例8.1海南省国营大岭农场橡胶树大型系比二组无性系,1960年刺检干胶量(x:毫克)与1965年正式割胶产量(y:克)如下表8—2,求正式割胶量关于剌检干胶量的回归方程.15表8—2正式割胶产量与刺检干胶量编号1234567891011121314xy7764627271837994104966190811228.87.98.97.78.68.19.15.68.57.64.98.112.015.7编号151617181920212223242526xy6513011116018881928063105897311.911.16.515.317.75.910.68.36.08.510.13.51.建立回归方程由所给的数据得2396ix15.92x9.236iy11.9y2439902ix23.24352iy9.23618iiyx于是得0771.026/)2396(24399026/9.23623969.23618/)(/))((222nxxnyxyxbiiiiii1601.215.920771.011.9xbya于是得回归方程为xy0771.001.2ˆ2.回归方程显著性检验71.27626/)9.236(23.2435/)()(2222nyyyySSiiiT总平方和]/)([)()ˆ(222222nxxbxxbyySSiiiiR回归平方和81.137]26/)2396(243990[)0771.0(2290.13852.13971.276RTESSSSSS剩余平方和方差分析结果列于表8—3.17表8—3回归方程的方差分析变异来源平方和(SS)自由度(df)均方(MS)F值回归剩余124137.81138.90137.815.7923.81**总变异25276.71SAS程序与输出结果datahan81;inputxy@@;cards;778.8647.9628.9727.7718.6838.1799.1975.61048.5967.6614.9908.18112.012215.76511.913011.11116.516015.318817.7815.99210.6808.3636.01058.58910.1733.5;18procgplot;ploty*x=’*’;procreg;modely=x/pclmcli;plotresidual.*x=’*’;run;主要的输出结果:(1)因变量y关于变量x的散点图y3456789101112131415161718x6070809010011012013014015016017018019019由散点图可以看出,图中的点大致呈现直线上升的趋势,因而可以用线性模型来刻画因变量y与自变量x的关系.(2)模型拟合与检验DependentVariable:yAnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePrFModel1137.80902137.8090223.81.0001Error24138.897525.78740Correctedtotal25276.70654RootMSE2.40570R-Square0.4980DependentMean9.11154AdjR-Sq0.4771CoeffVar26.4028020ParameterEstimatesParameterStandardVariableDFEstimateErrortValuePr|t|Intercept12.007461.530371.310.2020x10.077090.015804.88.0001输出结果的给出了F=23.81,Pr0.0001.表明回归方程是显著的.输出结果给出了参数的估计值和显著性检验.结果显示回归系数是显著的,于是得因变量y关于自变量x的回归方程为y=2.007+0.07761x必须注意,对于一元线性回归问题,回
本文标题:第九章-----回归分析
链接地址:https://www.777doc.com/doc-1756438 .html