您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 医学试题/课件 > 第七章多元回归分析2.
第七讲多元回归分析(主讲人:许雪剑唐桂庆)在许多经济问题中,一元线性回归只不过是回归分析中的一种特例,它通常是对影响某种经济现象的许多因素进行了简化考虑的结果。若某公司管理人员要预测来年该公司的销售额y时,研究认为影响销售额的因素不只是广告宣传费x1,还有个人可支配收入x2,价格x3,研究与发展费用x4,各种投资x5,销售费用x6.因此我们需要进一步讨论多元回归问题。第一节多元线性回归第二节可化为多元线性回归的问题第三节自变量的选择与逐步回归第一节多元线性回归多元线性回归模型一般形式其中,,,…,是p+1个未知参数,为回归常数,,…,为回归系数。y称为被解释变量,,…,是p个可以精确测量并可以控制的一般变量,称为解释变量01122...ppyxxx01p01p1x2xpx对一实际问题,若得到n组观测数据(,,…,;),i=1,2,…,n,则线性模型可表示为:1ix2ixipxiy1011121211201212222201122...................ppppnnnpnpnyxxxyxxxyxxx写成矩阵形式y11x11x21…x1pY=y2x=1x12x22…x2pyn1x1nx2n…xnpξ1ξ2e=…ξn则Y=Xβ+e01...p一、多元线性回归模型的基本假定解释变量x1,x2,…,xp是确定性变量,不是随机变量,而且rk(X)=P+1n,表明矩阵X中的自变量列间无多重共线性随机误差项具有零均值和同方差E(ξi)=0var(ξi)=E(ξi-E(ξi))2=E(ξi)2=σ2随机误差项在不同样本点之间是相互独立的,不存在序列相关cov(ξi,ξj)=0i≠ji,j=1,2,…ncov(ξi,ξj)=E((ξi-E(ξi)(ξj-E(ξj))=E(ξi)E(ξj)=0随机误差项与解释变量之间不相关cov(xi,ξi)=0随机误差项的正态分布假定条件为212~(0,)1,2,...,,,...,inNin相互独立二、回归参数的估计设令即pip2i21i10pip2i21i10ixbˆxbˆxbˆbˆˆxbˆxbˆxbˆbˆYˆiiiiyyy0ˆ2bQQi0ˆˆˆ2ˆ0ˆˆˆ2ˆ0ˆˆˆ2ˆ110111011100pipipiipipipiipipiixxbxbbybQxxbxbbybQxbxbbybQ0202021piiiiixx0001piiiiixx0002211112211121pnnppnnnxxxxxx000111212111211npnppnxxxxxx0exeXXBXYXeXBYYXXXBYXXBX1ˆ以上是通过使用最小二乘法(OLSE)对回归参数进行的估计,得到的回归参数的最小二乘估计为在正态假定下,回归参数的最大似然估计(MLE)与最小二乘法(OLSE)是完全相同的'1'()BXXXYB三、回归方程的效果的检验方程显著性检验回归系数显著性检验拟合优度链接1.方程显著性检验(F检验)F检验是以方差分析为基础,对回归总体线性关系是否显著的一种假设检验,是解释模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著的方法利用F统计量进行总体线性显著性检验的步骤如下:(1)提出关于P个总体参数的假设H0:b1=b2=…=bp=0(2)构造统计量(3)检验给定显著性水平α,查F分布表若FFα,拒绝H0,表明回归总体有显著性关系.若FFα,接受原假设,表明不存在线性关系//(1)SSRpFSSEnp2.回归系数显著性检验回归系数显著性检验,是对每个解释变量进行检验.如果解释变量对被解释变量的影响不显著,应从模型中删除,如果解释变量对被解释变量的影响显著,应保留在模型中.利用t统计量进行参数显著性检验的步骤如下:(1)对总体参数提出假设:H0:bi=0(2)构造统计量:(回归标准差)(3)检验对给定α,若︱t︱tα/2,说明拒绝原假设若︱t︱tα/2,则接受原假设.iiiibtc2111niienp当有多个自变量对因变量y无显著影响时,可以剔除多余变量,但由于自变量间的交互作用,不能一次剔除所有不显著变量。一般是将t值(绝对值)最小的变量删除掉,每次只剔除1个变量,再对求得的新的回归方程进行检验,直到保留的变量都对y有显著影响为止。返回3.拟合优度拟合优度用于检验回归方程对样本观测值的拟合程度。样本决定系数的取值在(0,1)区间内,越接近1,回归拟合的效果越好;越接近0,回归拟合的效果越差。21SSRSSERSSTSST2R2R2R四、复相关系数和偏相关系数复相关系数R是由SSR和SST构造的统计量,用来表示回归方程对原有数据拟合程度的好坏,衡量作为一个整体的x1,x2,…,xp与y的线性关系的大小。SSRRSST复相关系数表示的是因变量与全体自变量之间的线性关系,它的符号不能由某一自变量的回归系数的符号来确定,因而复相关系数都取正号。其它变量被固定后,计算任意两个变量之间的相关系数,这种相关系数称为偏相关系数。pppppprrrrrrrrr212222111211yyypyypyppppypyprrrrrrrrrrrrrrrr2121222221111211yyiiiypiiyijjiiijpjjiiijrr1112.111112.简单相关系数只是一种数量表面上的相关系数,而并非本质的东西。在多元回归分析中,偏相关系数才真正反映因变量y与自变量以及自变量与的相关性的数量。返回ixixix五、预测所谓预测就是给定解释变量一组值通过建立的多元回归模型,估计出对应的1、y0的点预测:2、y0以概率(1-α)落在某区间的区间预测:其中为随机误差项的标准差'001020(,,...,)pxxxx0y012001020...ppyxxx00ˆˆ[2,2]yy第二节可化为多元线性回归的问题在自然科学中,y关于x的数量关系多数都不是简单的线性关系,而是各种各样的非线性关系,于是我们常会遇到非线性回归模型,在非线性回归模型中,一种类型是可以通过变量变换化为线性模型,然后按线性模型加以解决;另一种类型的非线性模型是用任何变量变换办法都不能或不方便直接化为线性模型求得参数的估计值。多项式函数Y=β0+β1x+β2x2+…+βpxp设τi=xi则多项式化为:Y=β0+β1τ1+β2τ2+…+βpτp多元幂函数y=αx1β1x2β2…xpβplny=lnα+β1lnx1+…+βplnxp令z=lny,β0=lnα,τi=lnxiz=β0+β1τ1+β2τ2+…+βpτp指数函数y=a∏eβixi㏑y=㏑a+β1x1+β2x2+…+βpxpz=㏑y,β0=㏑a,则z=β0+β1x1+β2x2+…+βpxp多元对数函数y=a+β1㏑x1+β2㏑x2+…+βp㏑xp设τi=㏑xi,则y=a+β1τ1+β2τ2+…+βpτp指数函数与幂函数的积y=aexp{∑βixi}∏xibi㏑y=㏑a+β1x1+β2x2+…+βpxp+b1㏑x1+b2㏑x2+…+bp㏑xp令z=㏑y,β0=㏑a,τi=㏑xiz=β0+β1x1+β2x2+…+βpxp+b1τ1+b2τ2+…+bpτp如果自变量相邻数值之间大小间隔相等,而且相邻样本点对应的因变量y的二次差分大致相同,则该总体可配合二次多项式函数如果是三次差分大致相同,则可配合三次多项式函数第三节自变量选择与逐步回归在建立一个实际问题的回归模型,我们应该如何确定回归自变量。如果遗漏了某些重要的变量,回归方程的效果肯定不好。如果考虑过多的变量,在这些变量中有些自变量对问题研究可能不重要,有些变量可能与其它变量有很大程度的重叠。如果模型把这些变量也引入的话,不仅计算量增大,而且得到的回归方程的稳定性也很差,直接影响了回归方程的应用。在实际应用中,希望拟合这样一个模型,它既能较好的反映问题的本质,又包含尽可能少的自变量。这两个方面的一个适当折中就是回归方程的选取问题,其基本思想是在一定的准则下选取对因变量影响较为显著的自变量,建立一个既合理又简单实用的回归模型。在前面,我们认为残差平方和最小和复相关系数来衡量回归拟合的好坏。因为当引入的自变量的个数增大时,残差平方和随之减少,而复相关系数也随之增大。因此如果按上述原则来选择自变量,不论什么变量多取就行。但是由于变量之间的多重共显性,给自变量的估计值带来了不稳定性,加上变量的抽样误差积累将是y值得估计值误差增大。RS残一穷举法所谓穷举法就是从所有可能的回归方程中按一定的准则选取最优的一个或几个。设在一个实际问题的回归模型中,如果有m个可供选择的变量,由于每个变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有个,这其中包括只包含常数项的这种情况。下面给出几种选取准则:2m2m1从拟合的角度考虑的准则[准则1]自由度调整复决定系数达到最大。当给模型增加自变量时,复相关系数的增大是以残差自由度的减少为代价的。随着自由度的减少,模型估计和预测的可靠性也在降低。调整复决定系数其中,为样本容量,为自变量的个数。2211(1)nRRnpnp显然有,随着自变量的增加并不一定增大。因为随着变量的增加而减少,但由于其前面的系数起折扣作用,使得随着自变量的增加并不一定增加。当所增加的自变量对y不产生影响时,反而可能减少。在一个实际问题的回归建模中,自由度调整复决定系数越大,所对应的回归方程越好。22RR2R21R2R2R[准则2]平均残差平方和达到最小。平均残差平方和是指对应于模型中的估计,其中为自变量的个数。在此无偏估计式中加入了惩罚因子,它体现了对自变量个数的增加所施加的惩罚。22ppSSEnpp()np一开始自变量个数开始增加时,虽然因子增大了,但此时减少很多,故总起来说还是减少的。当自变量增加到一定程度,重要的自变量基本上都已选上了,这时再增加自变量,减少不多,以至于抵消不了的增加,最终导致了的增加。随着自变量个数的增加,平均残差平方和是先减小后增大的趋势。1()np2p2p1()nppSSEpSSE用平均残差平方和来衡量回归方程的拟合优度,应该用最小者所对应的回归子集为最优方程。在自由度调整的复相关系数中,由于。由于分母并不随p的变化而变化,因而使达到最小的准则和使调整的复相关系数达到最大是等价的。2p2p211()pSSEnRnpSST1(1)pMSESSTnpMSE2从极大似然估计方法考虑的准则[准则3]赤池信息量AIC达到最小。AIC既可以用于时间序列分析中的自回归模型的定阶上,也可以用来作回归方程自变量的选择。AIC=,其中是与自变量个数无关的常数。log()2SSEnpcnlog(2)cnnp在回归分析的建模过程中,对每一个回归子集计算AIC,其中最小者所对应的模型是“最优”回归模型。由于在正态假定下,参数的OLSE与MLE是一致的,因此,AIC准则在OLSE的情况下也是适用的。3从预测的角度考虑的准则[准则4]统计量达到
本文标题:第七章多元回归分析2.
链接地址:https://www.777doc.com/doc-2118341 .html