您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 02-一元线性回归模型(精)
第2章一元线性回归模型模型的建立及其假定条件最小二乘估计(OLS)OLS回归函数的性质最小二乘估计量的特性yt的分布和的分布的估计拟合优度的测量回归参数的显著性检验与置信区间YF的点预测与区间预测案例分析相关系数STATA操作1ˆ第一节回归模型概述一、概念1、相关函数关系:两个变量之间存在完全确定性关系。如价格销售量=销售收入相关关系:两个变量之间存在非确定性依存关系。如需求量与价格之间的关系Y=b0+b1X+u因变量自变量被解释变量解释变量1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式下图是根据1078个家庭的调查所作的散点图(略图)2、回归回归的含义回归的古典意义:高尔顿遗传学的回归概念(父母身高与子女身高的关系)回归的现代意义:一个因变量对若干解释变量依存关系的研究回归的目的(实质):由固定的解释变量去估计因变量的平均值yx160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定父亲身高儿子身高“回归”一词的由来从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:如此以来,高的越来越高,矮的越来越矮。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。后人将此种方法普遍用于寻找变量之间的规律xyubxay516.033.84ˆ旧日本武士的身高姚明、丁俊辉、易建联线性回归模型的特征一个例子凯恩斯绝对收入假设消费理论:消费(C)是由收入(Y)唯一决定的,是收入的线性函数:C=+Y但实际上上述等式不能准确实现。原因⑴消费除受收入影响外,还受其他因素的影响;⑵线性关系只是一个近似描述;⑶收入变量观测值的近似性:收入数据本身并不绝对准确地反映收入水平。因此,一个更符合实际的数学描述为:C=+Y+其中:是一个随机误差项,是其他影响因素的“综合体”。线性回归模型的特征:⑴通过引入随机误差项,将变量之间的关系用一个线性随机方程来描述,并用随机数学的方法来估计方程中的参数;⑵在线性回归模型中,被解释变量的特征由解释变量与随机误差项共同决定。随机误差项主要包括哪些因素的影响?一元线性回归模型1.模型的建立及其假定条件一元线性回归模型iiiiiiXXYEY10回归模型的随机误差项中一般包括如下几项内容,(1)非重要解释变量的省略,(2)人的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等。回归模型存在两个特点。(1)回归函数不能百分之百地再现所研究的经济过程。(2)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。总体回归方程随机形式iiiiiiXXYEY10总体回归方程iiiXXYE10样本回归方程随机形式iiieXY10ˆˆ样本回归方程iiXY10ˆˆˆ残差系统变化部分非系统变化部分样本回归函数(SRF)X样本回归线:对于的一定值,取得的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹称为样本回归线。样本回归函数:如果把应变量的样本条件均值表示为解释变量的某种函数,这个函数称为样本回归函数(SRF)。XYYYXSRF的特点●每次抽样都能获得一个样本,就可以拟合一条样本回归线,所以样本回归线随抽样波动而变化,可以有许多条(SRF不唯一)。SRF2SRF1YX●样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。●样本回归线还不是总体回归线,至多只是未知总体回归线的近似表现。12ˆˆˆiiYX样本回归函数如果为线性函数,可表示为其中:是与相对应的的样本条件均值和分别是样本回归函数的参数应变量的实际观测值不完全等于样本条件均值,二者之差用表示,称为剩余项或残差项:或者样本回归函数的表现形式21ˆˆiiiYXeˆiiieYYieiXiYˆiY1ˆ2ˆieYY对样本回归的理解如果能够获得和的数值,显然:●和是对总体回归函数参数和的估计●是对总体条件期望的估计●在概念上类似总体回归函数中的,可视为对的估计。ieˆiYiuE()iYX12ˆˆiiiYXe1ˆ2ˆ2ˆ1ˆ12iuYiYiiXY10ˆˆˆieiYˆiiXXYE10)|()|(iXYEXiX样本与总体回归线i这就要求:设计一“方法”构造SRF,以使SRF尽可能“接近”PRF,或者说使)1,0(ˆii尽可能接近)1,0(ii。注:这里真实的PRF可能永远无从知道1ˆ回归分析的目的用样本回归函数SRF去估计总体回归函数PRF。由于样本对总体总是存在代表性误差,SRF总会过高或过低估计PRF。要解决的问题:寻求一种规则和方法,使得到的SRF的参数和尽可能“接近”总体回归函数中的参数和。这样的“规则和方法”有多种,最常用的是最小二乘法2ˆ12一元线性回归模型(基本假定)x=x3时的E(y)x=x2时y的分布x=x1时y的分布x=x2时的E(y)x3x2x1x=x1时的E(y)0xyx=x3时y的分布0+1x模型解释变量和误差项ut的假定条件如下:(1)ut是一个随机变量,ut的取值服从概率分布。(2)E(ut)=0。(3)ui具有同方差性。D(ut)=E[ut-E(ut)]2=E(ut)2=2。(4)ut为正态分布(根据中心极限定理)。以上四个假定条件可作如下表达。utN(0,)模型解释变量和误差项ut的假定条件如下:(5)ui非自相关。Cov(ui,uj)=E[(ui-E(ui))(uj-E(uj))]=E(ui,uj)=0,(ij)。(6)Xi是非随机的。(7)ui与Xi相互独立。Cov(ui,Xi)=E[(ui-E(ui))(xi-E(Xi))]=E[ui(Xi-E(Xi)]=E[uiXi-uiE(Xi)]=E(uiXi)=0.(8)对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性)。在假定(1),(2),(6)成立条件下有E(Yi)=E(0+1Xi+ut)=0+1Xi二、普通最小二乘法(OLS)普通最小二乘法是一种参数估计方法,确定估计参数的准则是使全部观察值的残差平方和最小,即ei2min,由此得出选择回归参数b0,b1的最小二乘估计式。(谁提出的呢?)YXX1X2X3X4X5X6e1e2e3e4e5e6(CFGauss,1777-1855)CFGauss1809年提出OLS估计方法。残差平方和2221111ˆ()()nnniioiiiiieYYYX使偏导数为零21()2()0iioioeYX211()2()0iioiieYXX得正规方程Yi=nβo+β1XiXiYi=βoXi+β1Xi2解得22ˆoii1i1XYXYXXYbXnn记X,Y的平均数iYnYiXnX11YiYiyXiXix则得2oii1i1YXxyx例题2.1人均鲜蛋需求量Y与人均可支配收入X关系OLS估计结果:iiXY0051.07662.10ˆ(第2版教材第17页)(第3版教材第15页)(file:li-2-1)1415161718198001000120014001600xyFittedvalues2.3最小二乘估计量的统计性质一、线性性线性特性是指估计式βo和β1是Yi的线性函数。^^221iiiiiioiiii1KYYWYXYnxxxx证:22221)(ˆiiiiiiiiiiixxYxYxxYYxxyxβ令2iiixxk,因0)(XXxii,故有iiiiiYkYxx21ˆβiiiiiiiYwYkXnXYkYnXY)1(1ˆˆ10β二、无偏性无偏性指估计量和的均值等于总体回归参数和1100()()EE1001证:iiiiiiiiiikXkkXkYk10101)(ˆ由于02iiixxk,1)()(222222iiiiiiiiiiiiiiixxXxxxXxxxXXXxxXxXk故:iik11ˆ1111)()()ˆ(iiiiEkkEEiiiiiiiiiiwXwwXwYw10100)(ˆ由于:11)/1(iiikXkXnw01)/1(XXXkXXnXkXnXwiiiiiii故:iiw00ˆ0000)()()()ˆ(iiiiEwEwEE三、最小方差性最小方差性是指估计量和具有最小方差的性质,又叫有效性。1i022222()()uiuiVarXVarnxx01证明最小方差性假设*1ˆ是其他方法得到的关于1的线性无偏估计量:iiYc*1ˆ其中,iiidkc,id为不全为零的常数。iiiiiiiiiXccXcYEcYcEE1010*1)()()()ˆ(由*1ˆ的无偏性,即1*1)ˆ(E可知:110iiiXcc从而有:0ic,1iiXc*1ˆ的方差2222*1)var()var()var()ˆvar(iiiiiiiccYcYc=iiiiiidkdkdk22222222)(由于2)(iiiiiiiikckkckdk=011222222iiiiiiiiiiixxkxcXcXkcxx故22122222222*1)ˆvar(1)ˆvar(iiiiiddxdk因为02id所以)ˆvar()ˆvar(1*1当0id,(ni,2,1)等号成立,此时:iikc,*1ˆ就是OLS估计量1ˆ。同理可证明)ˆvar()ˆvar(0*0SamplingdistributionofOLSestimator1ˆandalternativeestimator*1ˆ11*11)ˆ()ˆ(EE1ˆ*1ˆ例题2.1人均鲜蛋需求量Y与人均可支配收入X关系估计结果:(第2版教材第32页)(第3版教材第29页)2448.11157.1ˆ229508.13967.1)ˆ(20Var00000144.00012.0)ˆ(21Var,1157.1ˆ(file:li-2-1)1415161718198001000120014001600xyFittedvalues高斯马尔可夫定理(Gauss-Markovtheorem)在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。一个估计量如果它是线性的,同时又是有效的(即无偏的,又具有最小方差)那它就是最佳线性无偏估计量BLUEBestLinearUnbiasedPropertyofanEstimator全部估计量线性无偏估计量BLUE估计量2.4~2.5拟合优度检验及回归系数显著性检验回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。•尽管从统计性质上已知,如果有足够多的重复抽
本文标题:02-一元线性回归模型(精)
链接地址:https://www.777doc.com/doc-5731297 .html