您好,欢迎访问三七文档
一元线性回归模型1.一元线性回归模型有一元线性回归模型(统计模型)如下,yt=0+1xt+ut上式表示变量yt和xt之间的真实关系。其中yt称被解释变量(因变量),xt称解释变量(自变量),ut称随机误差项,0称常数项,1称回归系数(通常未知)。上模型可以分为两部分。(1)回归函数部分,E(yt)=0+1xt,(2)随机部分,ut。图2.1真实的回归直线这种模型可以赋予各种实际意义,收入与支出的关系;如脉搏与血压的关系;商品价格与供给量的关系;文件容量与保存时间的关系;林区木材采伐量与木材剩余物的关系;身高与体重的关系等。以收入与支出的关系为例。假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。但实际上数据来自各个家庭,来自各个不同收入水平,使其他条件不变成为不可能,所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。随机误差项ut中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。所以在经济问题上“控制其他因素不变”是不可能的。回归模型的随机误差项中一般包括如下几项内容,(1)非重要解释变量的省略,(2)人的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等。回归模型存在两个特点。(1)建立在某些假定条件不变前提下抽象出来的回归函数不能百分之百地再现所研究的经济过程。(2)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。通常线性回归函数E(yt)=0+1xt是观察不到的,利用样本得到的只是对E(yt)=0+1xt的估计,即对0和1的估计。在对回归函数进行估计之前应该对随机误差项ut做出如下假定。(1)ut是一个随机变量,ut的取值服从概率分布。(2)E(ut)=0。(3)D(ut)=E[ut-E(ut)]2=E(ut)2=2。称ui具有同方差性。(4)ut为正态分布(根据中心极限定理)。以上四个假定可作如下表达。utN(0,)。(5)Cov(ui,uj)=E[(ui-E(ui))(uj-E(uj))]=E(ui,uj)=0,(ij)。含义是不同观测值所对应的随机项相互独立。称为ui的非自相关性。(6)xi是非随机的。(7)Cov(ui,xi)=E[(ui-E(ui))(xi-E(xi))]=E[ui(xi-E(xi)]=E[uixi-uiE(xi)]=E(uixi)=0.ui与xi相互独立。否则,分不清是谁对yt的贡献。(8)对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性)。在假定(1),(2)成立条件下有E(yt)=E(0+1xt+ut)=0+1xt。2.最小二乘估计(OLS)对于所研究的经济问题,通常真实的回归直线是观测不到的。收集样本的目的就是要对这条真实的回归直线做出估计。怎样估计这条直线呢?显然综合起来看,这条直线处于样本数据的中心位置最合理。怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用tyˆ=0ˆ+1ˆxt表示。其中tyˆ称yt的拟合值(fittedvalue),0ˆ和1ˆ分别是0和1的估计量。观测值到这条直线的纵向距离用tuˆ表示,称为残差。yt=tyˆ+tuˆ=0ˆ+1ˆxt+tuˆ称为估计的模型。假定样本容量为T。(1)用“残差和最小”确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。(这种方法对异常值非常敏感)设残差平方和用Q表示,Q=Titu12ˆ=Tittyy12)ˆ(=Tittxy1210)ˆˆ(,则通过Q最小确定这条直线,即确定0ˆ和1ˆ的估计值。以0ˆ和1ˆ为变量,把Q看作是0ˆ和1ˆ的函数,这是一个求极值的问题。求Q对0ˆ和1ˆ的偏导数并令其为零,得正规方程,0ˆQ=2Tittxy110)ˆˆ((-1)=0(1)1ˆQ=2Tittxy110)ˆˆ((-xt)=0(2)下面用代数和矩阵两种形式推导计算结果。首先用代数形式推导。由(1)、(2)式得,Tittxy110)ˆˆ(=0(3)Tittxy110)ˆˆ(xt=0(4)(3)式两侧用除T,并整理得,0ˆ=xy1ˆ(5)把(5)式代入(4)式并整理,得,])(ˆ)[(11Tittxxyyxt=0(6)TittTittxxxxyy111)(ˆ)(=0(7)1ˆ=ttttxxxyyx)()((8)因为Tityyx1)(=0,Titxxx1)(=0,分别在(8)式的分子和分母上减Tityyx1)(和Titxxx1)(得,1ˆ=)()()()(xxxxxxyyxyyxtttttt(9)=2)())((xxyyxxttt(10)下面用矩阵形式推导0ˆT+1ˆ(Titx1)=Tity10ˆTitx1+1ˆ(Titx12)=Tittyx12tttxxxT10ˆˆ=tttyxy10ˆˆ=12tttxxxTtttyxy=22)(1ttxxTTxxxttt2tttyxy这种形式在单位根检验的理论分析中非常有用。3.最小二乘估计量0ˆ和1ˆ的特性(1)线性特性这里指0ˆ和1ˆ分别是yt的线性函数。1ˆ=2)())((xxyyxxttt=2)()()(xxxxyyxxtttt=2)()(xxyxxttt令kt=2)()(xxxxtt,代入上式得1ˆ=ktyt可见1ˆ是yt的线性函数,是1的线性估计量。同理0也具有线性特性。(2)无偏性利用上式E(1ˆ)=E(ktyt)=E[kt(0+1xt+ut)]=E(0kt+1ktxt+ktut)=E[1kt(xt-x)+ktut]=1+E(ktut)=1(3)有效性0,1的OLS估计量的方差比其他估计量的方差小。Gauss-Marcov定理:若ut满足E(ut)=0,D(ut)=2,那么用OLS法得到的估计量就具有最佳线性无偏性。估计量称最佳线性无偏估计量。最佳线性无偏估计特性保证估计值最大限度的集中在真值周围,估计值的置信区间最小。上面的评价是对小样本而言,若是对大样本而言还应讨论估计量的渐近无偏性,一致性和渐近有效性。先给出渐近分布的概念。渐近分布。用T1T2…TN表示连续递增样本容量。设在每个样本容量Ti下重复抽样。则每个xTi都应有自己的均值E(xTi)与方差Var(xTi)。利用递增样本可以求得随机变量序列,xT={xT1,xT2,…,xTN}其中每个元素都是相应样本容量下的一个随机变量。当TN趋于无穷大时,这些分布收敛于某一分布。则称该分布为渐近分布或极限分布。渐近期望。对于期望值序列,E(xT)={E(xT1),E(xT2),…,E(xTN)}如随着T,期望值E(xT)收敛于某一常数,则称为xT的渐近期望。记为)(TTxELim=(与期望概念不同)与期望值序列相对应,也可以写出方差序列。Var(xT)=E(xT-E(xT))2={E[xT1-E(xT1)]2,E[xT2-E(xT2)]2,…,E[xTN-E(xTN)]2}但在许多情形下,ETLim(xT-E(xT))2=0,即xT的分布退化为一点。例如,已知x的分布是xN(,T2)。当T,Var(x)0。为防止分布发生退化,可以用T乘Var(x)。当T,TVar(x)2。渐近方差。若上述随机变量序列有渐近期望,同时有新序列,E[T(xT-E(xT))2]={E{T[xT1-E(xT1)]2},E{T[xT2-E(xT2)]2},…,E{T[xTN-E(xTN)]2}}满足ETLim[T(xT-E(xT))2]=v则定义xT的渐近方差为T1ETLim[T(xT-E(xT))2]=T1v渐近无偏性。若ˆ的渐近期望为,则ˆ为的渐近无偏估计量,即)ˆ(TTELim=一致性若ˆ满足(1)渐近无偏性,(2))ˆ(VTTarLim=0,则ˆ具有一致性,ˆ为的一致估计量。渐近有效性。若ˆ满足(1)具有一致性,(2)与其他估计量的方差相比,ˆ的渐进方差较小,Var(Tˆ)Var(T~),则称ˆ具有渐近有效性。OLS估计量都能满足上述渐近特性,但满足渐近特性的估计量不见得是最佳线性无偏估计量。注意:分清4个式子的关系。(1)真实的统计模型,yt=0+1xt+ut(2)估计的统计模型,yt=0ˆ+1ˆxt+tuˆ(3)真实的回归直线,E(yt)=0+1xt(4)估计的回归直线,tyˆ=0ˆ+1ˆxt4.OLS回归直线的性质(1)残差和等于零,tuˆ=0由正规方程2(yt-0ˆ-1ˆxt)(-1)=0得(yt-0ˆ-1ˆxt)=(yt-tyˆ)=(tuˆ)=0(2)估计的回归直线tyˆ=0ˆ+1ˆxt过(x,y)点。正规方程(yt-0ˆ-1ˆxt)=0两侧同除样本容量T,得y=0ˆ+1ˆx。得证。(3)yt的拟合值的平均数等于其样本观测值的平均数,tyˆ=y。tyˆ=T1tyˆ=T1(0ˆ+1ˆxt)=0ˆ+1ˆx=y。得证。(4)Cov(tuˆ,xt)=0只需证明(xt-x)tuˆ=xttuˆ-xtuˆ=xttuˆ=xt(tyˆ-0ˆ-1ˆxt)=0。上式为正规方程之一。(5)Cov(tuˆ,tyˆ)=0只需证明(tyˆ-y)tuˆ=tyˆtuˆ-ytuˆ=tyˆtuˆ=tuˆ(0ˆ+1ˆxt)=0ˆtuˆ+1ˆtuˆxt=05.yt的分布和1ˆ的分布根据假定条件utN(0,),E(yt)=E(0+1xt+ut)=0+1xt+E(ut)=0+1xt。Var(yt)=Var(0+1xt+ut)=Var(0+1xt)+Var(ut)=yt是ut的线性函数,所以ytN(0+1xt,)。可以证明E(1ˆ)=1,Var(1ˆ)=2)(1xxt,1ˆ是yt的线性函数(1ˆ=ktyt),所以1ˆN(1,2)(1xxt)。6.的估计定义2ˆ=)2()ˆ(2Tut其中2表示待估参数的个数。可以证明E(2ˆ)=。2ˆ是的无偏估计量。因为tuˆ是残差,所以2ˆ又称作误差均方。可用来考察观测值对回归直线的离散程度。1ˆ的估计的方差是Var(1ˆ)=S2(1ˆ)=2)(1xxt2ˆ,Var(0ˆ)=S2(0ˆ)=22)(xxTxtt2ˆ7.拟合优度的测量拟合优度是指回归直线对观测值的拟合程度。显然若观测值离回归直线近,则拟合程度好;反之则拟合程度差。图2.3三种离差示意图可以证明(yt-y)2=(tyˆ-y)2+(yt-tyˆ)2=(tyˆ-y)2+(tuˆ)2。SST(总平方和)=SSR(回归平方和)+SSE(残差平方和)证明(yt-y)2=[(yt-tyˆ)+(tyˆ-y)]2=(yt-tyˆ)2+(tyˆ-y)2+2(yt-tyˆ)(tyˆ-y)其中(yt-tyˆ)(tyˆ-y)=(yt-tyˆ)1ˆ(xt-x)=1ˆ(yt-tyˆ)xt-x1ˆ(yt-tyˆ)=1ˆtuˆxt=0度量拟合优度的统计量是可决系数(确定系数)。R2=22)()ˆ(yyyytt=(回归平方和)/(总平方和)=SSR/SST所以R2的取值范围是[0,1]。对于一组数据,SST是不变的,所以SSR↑(↓),SSE
本文标题:一元线性回归模型
链接地址:https://www.777doc.com/doc-4556191 .html