您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 第八章一元线性回归分析
§3一元线性回归分析客观事物总是普遍联系和相互依存的,它们之间的数量联系一般分为两种类型:一类是确定性关系,即函数关系;另一类是不确定的关系,称之为相关关系.前一类关系我们在数学分析中已进行了大量研究.第二类关系在我们的生活实践中也大量存在,如身高与体重、播种面积与总产量、劳动生产率与工资水平等关系.这些变量之间有一些联系,但没有确切到可以严格确定的程度,即前一个量不能惟一确定后一个量的值.又如,城市生活用电量y与气温X有很大的关系,在夏天气温很高或冬天气温很低时,由于空调、冰箱等家用电器的使用,用电量就高.相反,在春秋季节气温不高也不低,用电量就相对少.但我们不能由气温X这一个量准确地决定用电量Y.回归分析就是研究相关关系的一种数学工具,它着重于寻找变量之间近似的函数关系.8.3.1.回归分析的基本概念回归分析作为一种统计方法,是利用两个或两个以上变量之间的关系,由一个或几个变量来表示另一个变量.被表示的这个变量往往是我们研究的一个指标变量,常称为因变量或响应变量,记之为Y.与之有关的另一些变量可记为1X,2X,,pX,称为自变量或预报变量.由1X,2X,,pX可以部分地决定Y的值,但这种决定不很确切,这种关系就是所谓的“相关关系”.我们可以设想Y的值由两部分组成:一部分是由1X,2X,,pX能够决定的部分,它是12p(X,X,,X)f的函数,记为12p(X,X,,X)f.而另一部分则是由包括随机因素在内的其他众多未加考虑的因素所产生的影响,这一部分的诸多因素不再区别,所造成的对Y的影响一起被称为随机误差,记之为.于是得到如下模型:Y=12p(X,X,,X)f+这里是随机变量,一般要求满足某些假定,如()E=0,函数12p(X,X,,X)f称为理论回归函数,它描述了Y随自变量12pX,X,,X变化的平均擘况.Y=12p(X,X,,X)f称为回归方程.这种确定的函数关系可用来近似代替复杂的相关关系.回归分析的任务就在于根据12pX,X,,X和Y的观察值去估计理论回归函数,并讨论与之有关的种种统计推断问题,如假设检验问题和估计问题.回归分析所用方法在相当大的程度上取决于模型的假定.(1)若回归函数12p(X,X,,X)f的数学形式并无特殊假定,称为非参数回归.(2)假定12p(X,X,,X)f的数学形式已知,只是其中若干个参数未知,需要通过观测值去估计,称为参数回归.应用上最重要、理论上发展得最完善的是12p(X,X,,X)f为线性函数的情形,即12p(X,X,,X)f=0+11X+…+PpX,(8.3.1)称为“线性回归”.若1p,则称为一元线性回归.若根据观测值已估计了0,1,,P,设为0ˆ,1ˆ,,ˆp,称Y=0ˆ+1ˆ1X++ˆppX为经验回归方程.这里“经验”两字表示这个回归方程是由特定的观测值而得到的.回归分析的应用,简单地可归纳为以下几个方面:(1)估计回归函数f.如考虑亩产量Y与播种量1X和施肥量2X的相关关系,需求出Y对1X,2X的回归函数12(,)fXX,当给定播种量1X=1x,施肥量2X=2x,则12(,)fxx就是平均亩产量的值.(2)预测.当自变量X=(1X,2X,,pX)T在取定的情况下,比如0X=(10x,20x,…,0px)T,去预测因变量Y将取的值0y.Y的预测值往往就取回归函数在(10x,20x,,0px)T处的估计ˆf(10x,20x,,0px).(3)控制.在这类应用中,不妨把自变量解释为输入值,因变量解释为输出值,通过估计出的经验回归方程Y=ˆf(1X,2X,,pX)以调节1X,2X,…,pX的值达到把输出值Y控制在给定的水平0y的目的.最后简单介绍一下“回归”这一名称的由来.这个术语是英国生物学家兼统计学家高尔顿(F.Galton)在1886年左右提出来的.他在研究子代的身高与父母的身高的关系时,收集了1078对父母及其成年儿子的身高数据.高尔顿以父母之平均身高X作为自变量,以成年儿子的身高Y作为因变量,将(,)XY值标在直角坐标系内,发现二者有近乎直线的关系,总的趋势是X增加时Y倾向于增加,这与人们的常识是一致的.用他的数据可以计算出儿子身高Y与父母平均身高X的经验关系350.5YX.(8.3.2)高尔顿算出1078个X值的算术平均值为X=68英寸(1英寸=2.54厘米),1078个Y值的算术平均值为69英寸,子代身高平均增加了1英寸.按常理推想,当父母的平均身高为x英寸,子代的平均身高也要增加1英寸,即变为1x英寸,但事实上不然.按(8.3.2)计算,父母身高平均72英寸(注意比平均身高68英寸要高),子代平均身高为71英寸,而并非73英寸,与父母相比有变矮的倾向.父母身高平均为64英寸(注意比平均身高68英寸要矮),子代平均身高为67英寸,比预计的64+1=65(英寸)要多,与父母相比有增高的趋势.这种现象不是个别的,它反映了一般规律.高尔顿对这个结论的解释是:大自然有一种约束力,使人类身高的分布在一定时期内相对稳定而不产生两极分化,这就是所谓的回归效应,人的身高因约束力而“回归于中心”.正是通过这个例子,高尔顿引入了“回归”一词.人们把(8.3.2)所表示的直线称为回归直线.其实两变量间有回归效应的现象并非普遍现象,更多的相关关系不具有这一特征,特别是涉及多个自变量的情况时,回归效应不复存在.因此称谓“线性回归模型”、“经验回归方程”等概念中的“回归”一词并非总有特定意义,只是一种习惯说法而已.8.3.2.一元线性回归模型考虑因变量y和一个自变量x的一元线性回归,假设回归模型为y=0+1ix,()0E,20()Var(8.3.3)其中为随机误差,其均值为0,方差为2,y是随机变量,x是非随机变量(除非特别声明,我们考虑的回归分析中一律把自变量视为非随机的),0,1和2都是未知参数.0称为常数项或截距,1称为回归系数.(8.3.3)式称为理论模型.现设对模型(8.3.3)中的变量x,y进行了n次独立观察,得到样本值(1x,1y),(2x,2y),…,(nx,ny),从而iy=0十11x+i(i=1,2,…,n),(8.3.4)其中i是第i次观察随机误差所取之值,它是不能观察到的.对i(i=1,2,…,n)最常用的假定是:(1)误差项的均值为零,即()iE=0(i=1,2,…n);(2)误差项具有等方差,即2()iVar(1,2,)in(8.3.5)(3)误差项彼此不相关,即(,)ijCov=0(;,1,2,,)ijijn通常称假定(8.3.5)为Gauss-Markov假定.在这三条假定中,(1)表明误差项不包含任何系统的影响因素,视测值iy在均值()iEy的上下波动完全是随机的.(2)要求i等方差,也即要求在不同次的观测中iy在其均值附近波动程度的大小是一样的.(3)则等价于要求不同次的观测是不相关的.统计学中把(8.3.4)式及假设(8.3.5)合一起称为一元线性回归模型,它给出了样本观测值(ix,iy)(i1,2,…n)的概率性质,并可以对理论模型(8.3.3)进行统计推断.可见,理论模型(8.3.3)只起了一个背景的作用.对i的进一步假定是2(0,)(1,2,,)iNin(8.3.6)这是一个比Gauss—Markov假设更强的假设,指明了误差项所服从的分布.由(8.3.4)式有20101(,)iiiiyxNx(1,2,,)in,且12,,,nyyy相互独立.本章只讨论如下的一元线性回归模型201,(0,)1,2,,)iiiiiyxNin且相互独立((9.3.7)在多数应用问题中,我们选择x与y之间的线性回归形式很难有充分根据,在很大的程度上要依靠数据本身.将独立试验的几个观测值(,)(1,2,,)iixyin在直角坐标系中描出相应的一点,所得图形称为散点图,如图9—1所示.散点图中的点虽杂乱无章,但当它们大体呈现出一种直线走向的趋势时,选取线性回归函数是比较合理的.否则的话,我们应选取适当形式的曲线来拟合这些点,用曲线方程反映x,y之间的相关关系才更精确些.图9—1观测数据的散点图考虑模型(8.3.7),如果由样本(,)(1,2,,)iixyin得到参数夕01,的估计01ˆˆ,,则称方程01yx为y关于x的线性回归方程或回归方程,其图形称为回归直线.对于模型(8.3.7)将从下列各方面逐一研究.1)未知参数01,,2及的估计(1)01,的估计——最小二乘法.回归分析的主要任务就是要建立能够近似反映,xy的相关关系的经验回归函数.这里“经验”是指回归函数是由当前的样本观测值得出的,也就是根据数据(,)(1,2,,)iixyin由模型(8.3.7)去估计0,1.怎样给出的估计才是合理的呢?我们要定出一个准则,以衡量由此所导致的偏差,希望偏差越小越好.假若以10,作为01,的估计时,偏差10()(1,2,,)iiyxin的绝对值越小,说明用10ix代替iy时误差越小.考虑到数学处理上的方便,衡量这些偏差大小的一个合理的指标为它们的平方和(通过平方去掉差值正负符号的影响).记201011(,)(),niiiQyx(8.3.8)则01(,)Q反映了n次观察中总的偏差程度,称为残差平方和.若0,1使Q(0,1)越小,则模型拟合数据越好,因此只需极小化Q(01,),以所得的01ˆˆ,作为01,的相应估计.所谓最小二乘法就是按照这一思路,通过使残差平方和达到最小来估计回归系数的一种方法.这一重要方法一般归功于德国大数学家高斯在1799年~1809年间的工作.用最小二乘法导出的估计有一些良好性质,因而该法在数理统计中有广泛的应用.对于模型(8.3.7),最小二乘法与我们常用的最大似然估计法所得到的结果是一致的.因为12,,,nyyy的联合概率密度为2012111exp()22niiiLyx2012111exp()22nniiiyx求使L达到极大值的01,,只需极小化2011()niiiyx,这个和不是别的,正是我们上述的残差平方和01(,)Q.利用多元函数求极值的方法,分别求01(,)Q关于01,的偏导数,并令它们分别等于零:011001112()0,2()0.niiiniiiiQyxQyxx整理得0120111,(),nniiiiinnxnynxXXY(8.3.9)其中x=1111,nniiiiXyynn.方程组(8.3.9)称为正规方程组。由于一般要求ix不全相同,即试验点的选取不能只集中在一点,则方程(8.3.9)的系数行列式2222111()()0nnniiiiiinnxnXnxnXXnxX从而正规方程组(8.3.9)的唯一解为121()y)12()101(),().niiiniiniXXyinXXiiXXyXXyx(1=(8.3.10)(8.3.10)式中的0,1良分别称为0,1的最小二乘估计,于是所求的线性回归方程为01yx(8.3.11)若将0=1yx式代入(9.3.11)式,则得线性回归方程1()yyxx(8.3.12)可见,回归直线总通过点x,y).(x,y)称为样本数据的几何中心.根据模型(8.3.7)中的假定,很容易推出最小二乘估计0和1的一些性质.(i)0,1和0+1x的线性无偏估计.事实上,线性性显然.由01()iiEyx,得1121()()()niiiniixxyEExx2111()()()nii
本文标题:第八章一元线性回归分析
链接地址:https://www.777doc.com/doc-5065296 .html