您好,欢迎访问三七文档
一元线性回归分析一.变量之间的关系:函数关系:确定性关系相关关系:不确定性关系相关关系的测度:散点图线性相关关系的测度:相关系数相关关系不等于因果关系二.回归的含义:回归这一术语最早来源于生物遗传学,由高尔顿(FrancisGalton)引入。回归的现代解释:回归分析是研究某一变量(因变量)与另一个或多个变量(解释变量、自变量)之间的依存关系,用解释变量的已知值或固定值来估计或预测因变量的总体平均值。因变量:Y自变量:X或X1,X2,…等高尔顿的兴趣在于寻找为什么总体身高分布趋向稳定。现在我们所关心的已不是这个问题,而是想知道在已知父亲身高的情况下,儿子的身高的平均变化如何。换句话说,就是已知父亲身高来预测儿子的平均身高。假设进行抽样试验,得以下结果:父亲身高(X)1.501.601.701.801.90儿子身高(Y)1.521.651.681.811.89假设进行多次抽样(5次),则对于同一个X值,会有多个Y值与之1.51.61.71.81.91.41.51.61.71.81.92.0XYYvs.X对应,即Y有多个取值。假设作出的散点图如下:为了找出X与Y的关联关系,一个自然的想法是取X=Xi时,所有Y值的平均值作为对应X=Xi时Y的代表值,亦即取:对于任何一个X的可能值iX,我们都可以相应的取:当X变化时,上式左边是X的一个确定的函数,可以记为:1.41.51.61.71.81.92.01.41.51.61.71.81.92.0XYYvs.X1122()(/)()(/)EYEYXXEYEYXX()(/)iiEYEYXX()(/)()iiiEYEYXXfX于是,我们可以用一个确定的函数来大体描述Y与X之间的变化规律。为Y对X的回归方程,它反映了X固定的条件下Y的平均状态的变化情况。Y对X的回归就是Y对X的条件期望函数。三.相关分析和回归分析之间的关系相关分析的主要目的在于度量两个变量之间的线性关系的程度。回归分析,已如前述,我们首先并不对这种度量有兴趣,而主要是想根据一些有关变量的已知值来估计或预测某一变量的平均值。相关分析与回归分析在技术上的区别:相关分析同等对待任何两个变量,无自变量和因变量的区别。两个变量都假定为随机变量。回归分析对自变量和因变量不同对待。因变量是随机变量,而自变量是非随机的,是给定(固定)变量。四.总体回归函数定义:每一个条件均值E(Y/X=Xi)(简写为E(Y/Xi)是Xi的一个()()EYfX()()EYfX(/)()iiEYXfX函数,即:(/)()iiEYXfx()ifx:总体回归函数设(线性总体回归函数)1b:截距(intercept)2b:斜率系数(slope)五.线性的意义:变量线性:变量的幂指数为1,没有两个不同变量的乘除运算,也没有自变量作为幂指数运用。参数线性:参数的幂指数为1。线性回归一般指的是参数的线性,而变量可能是线性,也可能是非线性。六.总体回归函数的整体设定:设各个与其期望值的离差为:即::随机误差项,不可观察的随机变量,可以为正,也可为负。当时,则:12(/)()iiiEYXfXbbXiY(/)iiiuYEYX(/)iiiYEYXuiu12(/)iiEYXbbX12iiiYbbXu随机误差项的性质:可能代表了模型中并未包括的变量的影响;反映了人类行为中的一些内在随机性;可能反映一些测量误差。七.样本回归函数:当未掌握总体资料时,以样本资料拟合的回归线是总体回归线的近似代表(估计),因此样本回归函数可以写为:(假设为一元线性回归模型)样本回归函数也可以有随机设定的方程,设即::残差项,简称残差,是的估计。iiXbbY21ˆˆˆ总体回归参数b1、b2的估计量E(Y/Xi)的估计量ˆiiieYYˆiiiYYe12ˆˆiiiYbbXeieiu八.回归模型的假定:回归模型的基本假定:1.线性假定:自变量与因变量是线性函数关系。即:2.解释变量X与扰动项u不相关假定:当X是非随机变量,即确定性变量时,该条件自动满足;当X是随机变量时,该假定要求X与u不相关。3.关于随机误差项(扰动项)的假定:iYeiuiiYˆ样本回归直线E(Y/Xi)总体回归直线ix12iiiYbbXu12233iiiiYbbXbXucov(,)0iiuXa.零均值假定:给定解释变量的值,随机误差项的期望值为0。即:结合上一假定,该条件等价于:(/)0iEuX()0iEub.同方差(homoscedasticity)假定:不同的扰动项具有相同的方差。即:否则称为异方差。结合前面的假定,同方差假定等价于:2var()var(),,1,2,...,ijuuijn2var(/)var(/)var()iiiYXuXuc.无自相关或序列相关(noautocorrelation)假定:不同扰动项之间的协方差为零,即:该假定等价于:4.模型设定的假定:回归模型的设定是正确的,即模型不存在设定偏差(Specificationbias)或设定误差(specificationerror)。5.扰动项的假定:扰动项服从正态分布。结合3和4即为:九.参数的估计:最小二乘估计最小二乘法则:所谓最小二乘法则,就是按照使残差平方和最小的原则来确定回归系数的估计量,从而建立拟合最佳的样本回归方程。cov(,)0,ijuuijcov(,)0,ijYYij2~(0,)iuNˆiiieYY依据最小二乘法则确定参数,从而建立样本回归函数的方法,叫最小二乘法。要使Q最小,即求函数的极值。为此,要求函数的偏导数,并令其为零:等价于:解正规方程组:最后得参数的估计值为:i21iiXbˆbˆYemin)bˆ,bˆ(f)XbˆbˆY(eQ212i21i2i121122ˆˆ()0ˆˆˆ()0ˆiiiiiQYbbXbQYbbXXb00iiieeX12212iiiiiiYnbbXYXbXbX22212()()ˆ()ˆˆiiiiiiXXYYxybXXxbYbX其中:用OLS法估计得到的估计量称为最小二乘估计量。十.回归系数的特征分析:利用不同的样本回归就得到不同的回归系数,问题是最小二乘方法所得到的统计量,是否是一个理想的统计量,因此有必要讨论一下回归系数的数学期望和方差。回归系数是观测值Y函数由于22()()()iiiXXYYbXX=2iiixYx=iikY(1)2iiixkx这表明2b是iY的一个线性函数,这是一个线性估计量,同理1b也是一个线性估计量。ik具有以下的性质:ik是非随机的,因为ix是非随机的0ik;iiiixXXyYY221iikx1iiiikxkX以上性质均可从ik的定义直接验证现将直接带入(1)得:212()iiibkbbXu=12iiiiibkbkXku=2iibku(2)对上式两边取数学期望,得:222()()iiEbbkEub因此,2b是2b的无偏估计量,同理1b是1b的一个无偏估计量。2b的方差2222()(())VarbEbEb=222()Ebb利用(2)的结果有:22()()iiVarbEku2222221122(...........)nnEkukuku因为假定对每一i,22()iEu,且对ij,()0ijEuu12iiiYbbXu故222()iVarbk=2222()iixXX故2222(,)()ibbXX同样可得:22112(,)()iiXbbnXX随机扰动项的方差2的估计:222()22iiieYYnn2称为回归标准差(standarderroroftheregression),它为Y值偏离Y的标准差。十一、回归系数的区间估计当用回归标准差估计扰动项方差时,可证明以下统计量服从t分布:当自由度一定时,对于给定的显著性水平α,统计量t的1-α的置信区间为:1111ˆ~(2)ˆ()bbttnSeb212ˆˆ()iiXSebnx2222ˆ~(2)ˆ()bbttnSeb221ˆˆ()iSebx将代入上式得:所以参数2b的1-α的置信区间为:同理,参数1b的1置信区间为:222()1:()1PttPttt即1—αα/2α/22/t2/t2222ˆˆ()bbtSeb22222ˆ()1ˆ()bbPttSeb222222ˆˆˆˆ(),()btSebbtSeb221111ˆˆˆˆ(),()btSebbtSeb十二、拟合优度的度量:拟合优度(程度)是指样本观测值聚集在样本回归线周围的紧密程度。总离差平方和的分解:离差化表示法:2)(YYi:总离差平方和,又称为总变差,记为TSS(totalsumofsquares);22)ˆˆ()(iiiiYYYYYY)ˆ)(ˆ(2)ˆ()ˆ(22iiiiiiYYYYYYYY22)ˆ()ˆ(iiiYYYY22)ˆ(iieYY随机干扰的结果;X线性作用的结果。2)ˆ(YYi:回归平方和,记为ESS(explainedsumofsquares);2ie:残差平方和,记为RSS(residualsumofsquares)。222ˆiiiyyeTSSESSRSS判定系数(coefficientofdetermination)R2:对式RSSESSTSS两边同除以TSS得:TSSRSSTSSESS1定义为判定系数R2,用于度量回归模型对Y变动的解释比例。TSSRSSTSSESSR12十三、显著性检验(一)回归系数的显著性检验(t检验)回归系数的显著性检验是一种假设检验。以b2为例,对总体参数b2的值提出假设,检验估计量与假设值之间的差异是否显著。若差异显著,就不能接受这个假设;若差异不显著,就不能拒绝这个假设具体步骤:判定系数的性质:1.非负性,即02R;2.102R,当R2=1时,为完全拟合,表示线性模型完全解释Y的变动;当R2=0时,为完全不拟合,表示线性模型无法解释Y的变动,即X与Y无关;通常,0R21,判定系数越大,表示拟合优度越好。3.在双变量模型中,解释变量X与被解释变量Y之间的相关系数的平方等于判定系数。即:22RrXY2RrXY相关系数的符号取决于回归系数2ˆb的符号。2.计算T检验的值:2222(2)()bebbttnSb若假定20b,则222(2)()bbttnSeb1.提出假设。*221*220::bbHbbH*2b是某一给定的数值,通常的计算机检验中,设定0*2b即假设为:0:0:2120bHbH3、根据给定的自由度和显著性水平,查出临界值如果接受0H则说明Y与X无关,X无法解释Y的变化。反之则说明X可以解释Y的变化。4.做出判断:22ˆttb(或pα):接受H0;22ˆttb(或pα):拒绝H0,接受H1。1—αα/2α/22/t2/t十四、预测(一)总体均值E(Y0/X0)的点预测回归方程估计好后,可对总体的均值进行预测,即给定解释变量的一个值X0,代入拟合的方程中可得总体真实均值E(Y0/X0)的估计值(二)总体均值E(Y0/X0)的区间估计可以证明:所以,总体均值E(Y0/X0)的置信度为1-α区间估计为:从上式可以看出,样本容量n越大,预测误差越小;给定样本容量的情况下,X0的取值越接近于X的样本均值,预测误差越小。0120ˆˆˆYbbX2200122()1ˆ~(,[])iXXYNbbXnx22000000ˆˆˆˆ()(/)()YtSeYEYXYtSeY
本文标题:一元线性回归分析
链接地址:https://www.777doc.com/doc-3369183 .html