您好,欢迎访问三七文档
1第十章回归分析24681012141666.577.588.599.51010.5112一元线性回归多元线性回归回归分析数学模型及定义*模型参数估计*检验、预测可线性化的一元非线性回归(曲线回归)数学模型及定义*模型参数估计*多元线性回归中的检验与预测3一、数学模型例1测16名成年女子的身高与腿长所得数据如下:身高143145146147149150153154155156157158159160162164腿长8885889192939395969897969899100102以身高x为横坐标,以腿长y为纵坐标将这些数据点(xi,yi)在平面直角坐标系上标出.1401451501551601658486889092949698100102散点图xy10一元回归一元线性回归分析1.回归分析的概念回归分析就是对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个相关的数学表达式,以便于进行估计或预测的统计方法。2、在直角坐标系中将大量数据绘制成散点图,这些点不在一条直线上,但可以从中找到一条合适的直线,使各散点到这条直线的纵向距离之和最小,这条直线就是回归直线,这条直线的方程叫作直线回归方程。53.参数a、b的最小二乘估计其中,xy=nxyxbynxbnyayxxyxxnyxxynb222)(4.回归方程的显著性检验对于回归方程进行显著性检验基于以下两点:第一,在根据样本数据拟合回归方程时,我们首先假设变量与之间存在着线性关系,但这种假设是否成立?就必须通过检验才能证实;第二,样本回归方程中的、是对总体回归方程中参数的最小二乘估计值,样本回归系数能否作为总体回归系数的估计值,还需要对总体回归系数的显著性进行检验。回归方程的检验一般包括两个方面的内容:一是线性关系的检验;二是回归系数的检验。(1)线性关系的检验具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著。检验的具体步骤如下:第一步,提出假设。H0:β=0,H1:β≠0:第二步,计算检验统计量F。可以证明,在原假设成立的情况下,F统计量服从F分布,第一自由度为1,第二自由度为n-2,即F~F(1,n-2)。)2/()(1/)()2/(1/nyyyynSSESSRFcc第三步,确定显著性水平以及临界值F。确定显著性水平(通常=0.05)。依据和两个自由度1f、2f查F分布表可得相应的临界值F。第四步,做出判断。如果FF,拒绝原假设0H,表明回归效果显著;反之,则接受原假设,表明线性回归方程的回归效果不显著。(2)回归系数的检验回归系数的检验就是检验自变量对因变量的影响程度是否显著的问题。即总体回归系数是否等于零。其检验步骤如下:第一步,提出假设。假设样本是从一个没有线性关系的总体中选出,即0H:=0,1H:≠0第二步,计算检验的统计量T值。bSbT/其中:bS是回归系数b的标准差,yS是估计标准误差。回归系数的检验(续)计算公式如下:22)(22nxybyaynyyScy22)(xxSSyb第三步,确定显著性水平(通常=0.05),并根据自由度2nf查t分布表得相应的临界值2/t。第四步,做出判断。若2/tt,拒绝0H,回归系数b=0的可能性小于5%,表明两个变量之间存在线性关系;反之,表明两个变量之间不存在线性关系。15一元线性回归分析的主要任务是:1、用实验值(样本值)对和作点估计;2、对回归系数作假设检验;3、在x=x0处对y作预测,对y作区间估计。10,10,xy10称为y对x的回归直线方程。210,0DEy一般地,称由确定的模型为一元线性回归模型,记为01yx固定的未知参数称为回归系数,自变量x称为回归变量。10,16二、模型参数估计1、回归系数的最小二乘估计有n组独立观测值,(x1,y1),(x2,y2),…,(xn,yn)设相互独立且,niiiiDEnixy...,,0,...,2,1,21210记niiiniixyQQ12101210),(最小二乘法就是选择0和1的估计0ˆ,1ˆ使得),(min)ˆ,ˆ(10,1010QQ1722110ˆˆˆxxyxxyxy解得(经验)回归方程为:)(ˆˆˆˆ110xxyxy或niiniiixxyyxx1211ˆniiniiynyxnx111,1221111,nniiiiixxxyxynn其中18三、检验,预测1、回归方程的显著性检验对回归方程xY10的显著性检验,归结为对假设0:;0:1110HH进行检验.假设0:10H被拒绝,则回归显著,认为y与x存在线性关系,所求的线性回归方程有意义;否则回归不显著,y与x的关系不能用一元线性回归模型来描述,所得的回归方程也无意义.19(Ⅰ)F检验法(Ⅱ)t检验法niiniixxxnxxxL12212)(其中当0H成立时,exxLTˆˆ1~t(n-2)故)2(21ntT,拒绝0H,否则就接受0H.当0H成立时,)2/(nQUFe~F(1,n-2)其中niiyyU12ˆ(回归平方和)故F)2,1(1nF,拒绝0H,否则就接受0H.220111ˆˆˆ()2neiiiybbxn21ˆ()neiiiQyy(残差平方和)20(Ⅲ)r检验法当|r|1r时,拒绝H0;否则就接受H0.其中2,121111nFnr12211()()()()niiinnyyiiiixxyyUrLxxyy记称为样本相关系数,用于刻画y与x线性相关的密切程度。212、预测用y0的回归值0100ˆˆˆxy作为y0的预测值.0y的置信水平为1的预测区间为)(ˆ),(ˆ0000xyxy其中xxeLxxnntx2021011)2(ˆ)(特别,当n很大且x0在x附近取值时,y的置信水平为1的预测区间近似为1122ˆˆˆˆ(2),(2)eeytnytn22例1测16名成年女子的身高与腿长所得数据如下:身高143145146147149150153154155156157158159160162164腿长8885889192939395969897969899100102以身高x为横坐标,以腿长y为纵坐标将这些数据点(xi,yi)在平面直角坐标系上标出.输入:x=[143145146147149150153154155156157158159160162164]';X=[ones(16,1)x];Y=[8885889192939395969897969899100102]';[b,bint,r,rint,stats]=regress(Y,X)b,bint,stats23即7194.0ˆ,073.16ˆ10;0ˆ的置信区间为[-33.7017,1.5612],1ˆ的置信区间为[0.6047,0.834];r2=0.9282,F=180.9531,p=0.0000,s2=1.7437p0.05,可知回归模型y=-16.073+0.7194x成立.b=-16.07300.7194bint=-33.70711.56120.60470.8340stats=0.9282180.95310.00001.7437243、残差分析,作残差图:rcoplot(r,rint)从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型y=-16.073+0.7194x能较好的符合原始数据,而第二个数据可视为异常点.4、预测及作图:z=b(1)+b(2)*xplot(x,Y,'k+',x,z,'r')246810121416-5-4-3-2-101234ResidualCaseOrderPlotResidualsCaseNumber25应用Matab命令求解并作回归分析:x=[78,71,68,85,75,73,72,65,70,66,74];y=[136,135,120,140,130,128,122,118,119,108,120];plot(x,y,'p')%画出散点图X=[ones(1,11);x][b,bint,e,eint,stats]=regress(y',X')部分结果输出:b=25.96081.3682%回归方程为y=25.9608+1.3682xbint=-27.631079.5526%b0的置信区间为(-27.631079.5526)0.63062.1058%b1的置信区间为(0.63062.1058)stats=0.661717.60680.002334.3111%F统计量值为17.6068,显著性概率P=0.0023。由于P0.05,所以回归模型有效。26例2从某校抽取11名学生,测得他们的语文成绩和智商如下表所示,求根据语文成绩估计智商的回归方程。序号1234567891011语文成绩7871688575737265706674智商136135120140130128122118119108120画出散点图:60657075808590100105110115120125130135140145150scoreIQ2760657075808590100105110115120125130135140145150回归效果图:28例3为了了解血压随年龄的增长而升高的关系,调查了15个成年人的血压(收缩压mmHg),如下表所示。(1)画散点图,(2)建立血压与年龄之间关系的一元回归方程并作回归分析。序号123456789101112131415血压144138145162142170124158154162150160110128130年龄39454765466742675664565934424830354045505560657010011012013014015016017018029x=[39,45,47,65,46,67,42,67,56,64,56,59,34,42,48];y=[144,138,145,162,142,170,124,158,154,162,150,160,110,128,130];X=[ones(15,1)x'];[b,bint,e,eint,stats]=regress(y',X)部分结果输出:b=73.26641.3874%回归方程为y1=73.2664+1.3874xbint=52.108994.42400.98711.7877stats=0.811856.07370.000057.0656%显著性概率小于0.01。30四、可线性化的一元非线性回归(曲线回归)例2出钢时所用的盛钢水的钢包,由于钢水对耐火材料的侵蚀,容积不断增大.我们希望知道使用次数与增大的容积之间的关系.对一钢包作试验,测得的数据列于下表:使用次数增大容积使用次数增大容积234567896.428.209.589.509.7010.009.939.991011121314151610.4910.5910.6010.8010.6010.9010.763124681012141666.577.588.599.51010.511散点图此即非线性回归或曲线回归问题(需要配曲线)配曲线的一般方法是:先对两个变量x和y作n次试验观察得niyxii,...,2,1),,(画出散点图,根据散点图确定须配曲线的类型.然后由n对试验数据确定每一类曲线的未知参数a和b.采用的方
本文标题:第十章回归分析.
链接地址:https://www.777doc.com/doc-2091315 .html