您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 回归分析与协方差分析
内容§9.1一元线性回归学习目标散点图,回归系数,正规方程,经验回归方程;回归平方和,剩余平方和,相关系数,显著性检验.不确定关系人的身高体重农作物的单位面积产量施肥量§9.1一元线性回归1.一元线性回归的基本概念线性模型例为了研究弹簧悬挂不同重量(单位:克力)x时长度(单位:厘米)y的关系。通过试验得到一组数据。重量xi51015202530长度yj7.258.128.959.9010.9011.80把这些数据点(xi,yj)画在xoy坐标系中,图形称为散点图。******L散点图记L为xybaiii)x(yba进行n次独立试验,测得数据如下:nnyyyYxxxX2121我们的问题是,如何根据这些观测值用“最佳的”形式来表达变量Y与X之间的相关关系?一般而言,在变量x取值以后,若Y所取的值服从N(α+βx,σ2)分布,当α、β及σ2未知时,根据样本(x1,Y1),(x2,Y2),…,(xn,Yn)的观测值(x1,y1),(x2,y2),…,(xn,yn)对未知参数α、β及σ2所作的估计与检验称为一元线性回归分析,而α称为截距,β称为回归系数,E(Y)=α+βx称为回归方程。由回归方程可以推出,iiixY),,,(ni21).,(~20Ni相互独立且都式中的根据样本及其观测值可以得到α、β及σ2的估计量及估计值,和2ˆˆ,ˆ得到回归方程的估计式或经验回归方程,ˆˆˆxy最常用的是最小二乘法,即求出使及iibxaybaˆˆ,ˆniiiyyQ12)ˆ(niiibxay12)]([的值最小,所求出的a称为经验截距,简称为截距,b称为经验回归系数,简称为回归系数,而的无偏估计。是222nQˆ2.总体中未知参数的估计根据最小二乘法的要求由得,,00bQaQniiiiniiixbxaybxay110202,)]([,)]([,,001211111niiniiniiiniininiixbaxyxxbay得到一元线性回归的正规方程组,,niiiniiniiniiniiyxxbxayxbna112111并求出,,xbyallbxxxy,)()(2112121niiniiniixxxnxxxl),)(())((niiniiniiiniiixyyxnyxyyxxl11111.)()(2112121niiniiniiyyynyyyl建立一元线性回归方程的具体步骤:,,)(niiniiniixyx12111,计算;niiiniiyxy112,;,,)(yyxyxxlll计算2(3)计算b和a,写出一元线性回归方程。与上述a和b相对应的Q的数值又记作SSE,称为剩余平方和。将a、b和SSE以及和看作是统计量,它们的表达式分别为YˆiYˆ,)(,xxniiilYxxbxbYa1niiibxaYSSE12,)]([),(ˆxxbYbxaY).(ˆxxbYYii这些统计量之间以及它们与总体参数之间有以下的内在联系:相互独立;与SSEbY,)(1,)(,)()(aEbE2;)()(,)(2221xxxxlxnaDlbD①为提高a的估计精度,最理想的选择是使=0,其绝对值越小越好;x②为提高b的估计精度,应该使lxx取较大的数值,x1、x2、…、xn越分散越好;③观测值的个数n不能太小。,)()()(223nSSEE的无偏估计;是即222nSSEˆ都服从正态分布,以及和Yabˆ)(4).(~222nSSE而3.线性回归方程的显著性检验因此,必须对回归方程的拟合情况或效果作显著性检验。其理论基础就是总平方和的分解,即.)ˆ()ˆ()(niiniiiniiyyyyyy121212niiiiniiyyyyyy1212)]ˆ()ˆ[()(niiniiiyyyy1212)ˆ()ˆ(,)ˆ)(ˆ(niiiiyyyy12niiiiyyyy1)ˆ)(ˆ(niiiiybxabxay1))((])(][)([niiiixxbbxxbyy1niiniiixxbyyxxb1221)())((.02xxxylbbl.)ˆ()ˆ()(niiniiiniiyyyyyy121212niiyyyyl12)(式中的表示n个y1、y2、…、yn与之间的差异,当各个yi已知时,它是一个定值,称为总平方和,记作SST。y之间的偏差与是iiniiiyyyyˆ)ˆ(12通过回归已经达到了最小值,称为剩余平方和,记作SSE。之间的差异,与个表示而yyˆn)yyˆ(inii12所造成的,代入回归方程得到是将iiyxˆ称为回归平方和,记作SSR。因此,SST=SSE+SSR。如果SSR的数值较大,SSE的数值便比较小,说明回归的效果好;如果SSR的数值较小,SSE的数值便比较大,说明回归的效果差。niiyySSR12)ˆ(niiybxa12)(niiybxxby12)(niixxb122)(,xyxxbllb2.xyblSSTSSExyblSSTSSEyyxxxyyyxxxyyylllllll221.,yyxxxyyyxxxylllrlllr22现引进如果|r|较大,SSE的数值便比较小,说明回归的效果好或者说x与Y的线性关系密切;如果|r|较小,SSE的数值便比较大,说明回归的效果差或者说x与Y的线性关系不密切;因此称r为x与Y的观测值的相关系数。又由r及回归系数的计算公式,xxxyllb可以推出:r0时b0,x增加时Y的观测值呈增加的趋势;r0时b0,x增加时Y的观测值呈减少的趋势。因此r0时称x与Y正相关,r0时称x与Y负相关。综上所述,如果设H0为β=0,也就是假设x与Y不是线性关系,则可以用以下三种实质相同的方法检验线性回归方程的显著性,且当检验的结果显著时x与Y的线性关系显著,回归方程可供应用;当检验的结果不显著时x与Y的线性关系不显著,回归方程不可应用。⑴F检验法:),(~222nSSE当H0为真时,);(~RSS122且SSR与SSE相互独立;因此,当H0为真时,),,(~)(212nFnSSESSRF当F≥F1-α(1,n-2)时应该放弃原假设H0。(2)t检验法:),(~),,(~2222nSSElNbxx当H0为真时,),(~)(22nTnSSElbtxx当|t|≥t1-0.5α(n-2)时应该放弃原假设H0。(3)r检验法:根据x与Y的观测值的相关系数,,yyxxxyyyxxxylllrlllr22可以推出.SSTSSRr2当H0为真时,),,(~)()(212122nFnrrF当F≥F1-α(1,n-2)或|r|≥rα(n-2)时应该放弃原假设H0,式中的)(),(),()(22121211nnFnFnr可由r检验用表中查出。,SSTSSRr2因此,r常常用来表示x与Y的线性关系在x与Y的全部关系中所占的百分比,又称为x与Y的观测值的决定系数。4.利用回归方程进行点预测和区间预测若线性回归作显著性检验的结果是放弃H0,也就是放弃回归系数β=0的假设,便可以利用回归方程进行点预测和区间预测,这是人们关注线性回归的主要原因之一。⑴当x=x0时,的观测值预测用000Ybxayˆ称为点预测。0y),()ˆ(000YExyE由于Y0的观测值y0的点预测是无偏的。⑵当x=x0时,用适合不等式P{Y0∈(G,H)}≥1-α的统计量G和H所确定的随机区间(G,H)预测Y0的取值范围称为区间预测,而(G,H)称为Y0的1-α预测区间。若Y0与样本中的各Yi相互独立,则根据Z=Y0-(a+bx0)服从正态分布,E(Z)=0,),)(()(xxlxxnZD20211),(~222nSSE及Z与SSE相互独立,可以导出).(~))((211220ntlxxnnSSEZtxx因此,Y0的1-α预测区间为a+bx0±Δ(x0),.))(()()(.xxlxxnnSSEntx2050101122例1.1《吸附方程》某种物质在不同温度下可以吸附另一种物质,如果温度x(单位:℃)与吸附重量Y(单位:mg)的观测值如下表所示:温度x1.51.82.43.03.53.94.44.85.0重量y4.85.77.08.310.912.413.113.615.3试求线性回归方程并用三种方法作显著性检验,若x0=2,求Y0的0.95预测区间。解:根据上述观测值得到n=9,,.,.11913309191iiiiyx,.,.093451111591912iiiiiyxx,.651036912iiy,.,.,.5161143873810013yyxyxxlll,.,.122103673yx,.,.2569093032xbyallbxxxy;..ˆxy9303225690所求的线性回归方程为显著性检验方法⑴F检验法:SST=lyy=114.516,SSR=blxy=112.485,SSE=SST-blxy=2.031,n-2=7,F0.99(1,7)=12.2,,.,.)(212693872FnSSESSRF所以回归方程极显著;⑵t检验法:,.)(69192nSSElbtxx,.,.)(.4993499379950tt所以回归方程极显著;(3)r检验法:,.,.991109823022rlllryyxxxy,.,.)(.7970797707010rr所以回归方程极显著.,.)(,.ˆ,4311262000xyx时当Y0的0.95预测区间为(4.09,8.15)。这说明当温度为2时,应该预测吸附另一种物质的重量在4.09至8.15之间,并且预测100次将有95次是正确的。例1.2《植物保护》一些夏季害虫的盛发期与春季温度有关,现有1956-1964年间3月下旬至4月中旬旬平均温度的累计数x和一代三化螟蛾盛发期Y(以5月10日为0)的观测值如下:温度x35.534.131.740.336.840.231.739.244.2盛发期y12169273139-1试求线性回归方程并用三种方法作显著性检验,若x0=40,求Y0的0.95预测区间。解:根据上述观测值得到n=9,,,.7073339191iiiiyx,.,.42436491251791912iiiiiyxx,794912iiy,.,.,.555624904441596356144yyxyxxlll,.,.7778707737yx,.,.54934809961xbyallbxxxy所求的线性回归方程为;..ˆxy11548显著性检验方法⑴F检验法:SST=lyy=249.5556,SSR=blxy=174.8886,SSE=SST-blxy=74.6670,n-2=7,F0.99(1,7)=12.2,,.,.)(21240162FnSSESSRF所以回归方程极显著;⑵t检验法:,.)(0542nSSElbtxx,.,.)(.4993499379950tt所以回归方程极显著;(3)r检验法:,.,.837107008022rlllryyxxxy,.,.)(.79770797707010rr所以回归方程极显著.,.)(,.
本文标题:回归分析与协方差分析
链接地址:https://www.777doc.com/doc-5423465 .html