您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 第二讲 多元线性回归模型
第二讲:线性回归模型的基本假设及统计检验单方程多元线性回归模型的一般形式:ni,,2,1ikik2i21i10iXXXY1、为什么要提出基本假设回归分析的主要目的是要通过样本回归函数尽可能准确地估计总体回归函数。估计的方法有很多种,其中使用最广泛的是普通最小二乘法(OrdinaryLeastSquares,OLS)。为保证OLS的参数估计量具有良好性质,通常要对模型提出若干基本假设。需要注意的是,基本假设是针对OLS估计方法的,而不是针对模型的。一、多元线性回归模型的基本假设2、参数估计量优劣的评价标准估计量的小样本性质(small-sampleproperties)线性性:估计量是另一随机变量的线性函数无偏性:估计量的期望等于总体的真实值有效性:估计量在所有线性无偏估计量中具有最小方差拥有这三个性质的估计量称为最佳线性无偏估计量(bestlinearunbiasedestimator,BLUE)估计量的大样本性质渐近无偏性:样本容量趋于无穷大时,估计量的均值序列趋于总体真值一致性:样本容量趋于无穷大时,估计量依概率收敛于总体真值渐近有效性:样本容量趋于无穷大时,估计量在所有的一致估计量中具有最小的渐近方差注:估计量如果满足小样本性质的话,自然也拥有大样本特性1)关于模型关系的假设•模型设定正确假设。Theregressionmodeliscorrectlyspecified.•线性回归假设。Theregressionmodelislinearintheparameters。iiiXY10注意:“linearintheparameters”的含义是什么?3、多元线性回归模型的基本假定2)关于解释变量的假设•确定性假设。Xvaluesarefixedinrepeatedsampling.Moretechnically,Xisassumedtobenonstochastic.注意:“inrepeatedsampling”的含义是什么?•与随机项不相关假设。ThecovariancesbetweenXiandμiarezero.由确定性假设可以推断。cov(,)0,1,2,,()0,1,2,,iiiiXinEXin•观测值变化假设。Xvaluesinagivensamplemustnotallbethesame.•无完全共线性假设。Thereisnoperfectmulticollinearityamongtheexplanatoryvariables.适用于多元线性回归模型。•样本方差假设。随着样本容量的无限增加,解释变量X的样本方差趋于一有限常数。nQnXXi,/)(2时间序列数据作样本时间适用3)关于随机项的假设•0均值假设。Theconditionalmeanvalueofμiiszero.•同方差假设。Theconditionalvariancesofμiareidentical.(Homoscedasticity)由模型设定正确假设推断。()0,1,2,,iiEXin2(),1,2,,iiVarXin是否满足需要检验。•序列不相关假设。Thecorrelationbetweenanytwoμiandμjiszero.是否满足需要检验。(,,)0,,1,2,,,ijijCovXXijnij4)随机项的正态性假设•在采用OLS进行参数估计时,不需要正态性假设。在利用参数估计量进行统计推断时,需要假设随机项的概率分布。•一般假设随机项服从正态分布。可以利用中心极限定理(centrallimittheorem,CLT)进行证明。•正态性假设。Theμ’sfollowthenormaldistribution.22~(0,)~(0,)iiNNID5)CLRM和CNLRM•以上假设(正态性假设除外)也称为线性回归模型的经典假设或高斯(Gauss)假设,满足该假设的线性回归模型,也称为经典线性回归模型(ClassicalLinearRegressionModel,CLRM)。•同时满足正态性假设的线性回归模型,称为经典正态线性回归模型(ClassicalNormalLinearRegressionModel,CNLRM)。假设1,解释变量是非随机的或固定的,且各解释变量之间互不相关(无多重共线性)。假设2,随机误差项具有零均值、同方差及不具有序列相关性。假设3,解释变量与随机项不相关假设4,随机项满足正态分布满足这四个基本假设的线性回归模型的普通最小二乘估计量具有线性性、无偏性和最小方差性等优良性质,是最佳线性无偏估计量(高斯-马尔科夫定理(Gauss-Markovtheorem))总结二、多元线性回归模型的普通最小二乘估计•对于随机抽取的n组观测值kjniXYjii,2,1,0,,,2,1),,(如果样本函数的参数估计值已经得到,则有:KikiiiiXXXYˆˆˆˆˆ22110i=1,2…n•根据最小二乘原理,参数估计值应该是右列方程组的解0ˆ0ˆ0ˆ0ˆ210QQQQk其中2112)ˆ(niiiniiYYeQ2122110))ˆˆˆˆ((nikikiiiXXXY•于是得到关于待估参数估计值的正规方程组:kiikikikiiiiikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ(221102222110112211022110解该(k+1)个方程组成的线性代数方程组,即可得到(k+1)个待估参数的估计值$,,,,,jj012。k□正规方程组的矩阵形式nknkknkkiikikikiiiikiiYYYXXXXXXXXXXXXXXXXn212111211102112111111ˆˆˆ即YXβX)X(ˆ由于X’X满秩,故有YXXXβ1)(ˆ•1、拟合优度检验(R2)拟合优度检验:对样本回归线与样本观测值之间拟合程度的检验。问题思考:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?三、多元线性回归模型的统计检验iiiiiiiyeYYYYYYyˆ)ˆ()ˆ(1)变差的分解(以一元线性回归模型为例)对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:记22)(YYyTSSii22)ˆ(ˆYYyESSii22)ˆ(iiiYYeRSS总体平方和(TotalSumofSquares)回归平方和(ExplainedSumofSquares)残差平方和(ResidualSumofSquares)TSS=ESS+RSSTSSRSSTSSESSR1记22)可决系数R2称R2为(样本)可决系数/判定系数(coefficientofdetermination)。可决系数的取值范围:[0,1]R2越接近1,说明实际观测点离样本线越近,拟合优度越高。3)调整后的可决系数R2R2越接近1,表明模型拟合效果越好。但在应用中发现,如果在模型中增加一个解释变量,不管此变量是否有助于解释Y的变动,R2往往增大。也就是说,由增加解释变量个数引起的R2的增大与拟合好坏无关,因此,在多元回归模型之间比较拟合优度,R2就不是一个合适的指标,必须加以调整11)1(1)1()1(122knnnTSSknRSSRR4)赤池信息准则和施瓦茨准则•为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有赤池信息准则(Akaikeinformationcriterion,AIC)和施瓦茨准则(Schwarzcriterion,SC)•这两个准则均要求仅当所增加的解释变量能够减少AIC值或SC值时才在原模型中增加该解释变量2、变量的显著性检验判断解释变量X是否对被解释变量Y具有显著的线性影响,这就需要进行变量的显著性检验。变量的显著性检验所应用的方法是数理统计学中的假设检验。统计学知识的回顾——假设检验•所谓假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或否定原假设。•假设检验采用的逻辑推理方法是反证法先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,从而判断是否接受H0。•判断结果合理与否,是基于“小概率事件在一次实验中不易发生”这一原理的检验步骤:(1)对总体参数提出假设H0:i=0,H1:i0(2)以原假设H0构造t统计量,并由样本计算其值)1n(t~ˆˆkStii(3)给定显著性水平,查t分布表得临界值t/2(n-k-1)变量的显著性检验(t检验)(4)比较,判断若|t|t/2(n-2),则拒绝H0,接受H1;若|t|t/2(n-2),则拒绝H1,接受H0;t检验图示t0t/2-t/2/2拒绝H0拒绝H0/23、方程的显著性检验(F检验)旨在对模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立作出推断。)1/(/knRSSkESSF给定显著性水平,可得到临界值F(k,n-k-1),由样本求出统计量F的数值,通过FF(k,n-k-1)或FF(k,n-k-1)来拒绝或接受原假设H0,以判定原方程总体上的线性关系是否显著成立。0:210kHF检验图示F分布F(k,n-k-1)0拒绝H0不能拒绝H0F四、样本容量问题所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。⒈最小样本容量样本最小容量必须不少于模型中解释变量的数目(包括常数项),即nk+1因为,无多重共线性要求:秩(X)=k+12、满足基本要求的样本容量•从统计检验的角度:n30时,Z检验才能应用;n-k8时,t分布较为稳定•一般经验认为:当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。•模型的良好性质只有在大样本下才能得到理论上的证明多元线性回归模型的参数估计实例解释变量:人均GDP:GDPP前期消费:CONSP(-1)估计区间:1979~2000年Eviews软件估计结果LS//DependentVariableisCONSSample(adjusted):19792000Includedobservations:22afteradjustingendpointsVariableCoefficientStd.Errort-StatisticProb.C120.700036.510363.3059120.0037GDPP0.2213270.0609693.6301450.0018CONSP(-1)0.4515070.1703082.6511250.0158R-squared0.995403Meandependentvar928.4946AdjustedR-squared0.994920S.D.dependentvar372.6424S.E.ofregression26.56078Akaikeinfocriterion6.684995Sumsquaredresid13404.02Schwarzcriterion6.833774Loglikelihood-101.7516F-statistic2057.271Durbin-Watsonstat1.278500Prob(F-statistic)0.000
本文标题:第二讲 多元线性回归模型
链接地址:https://www.777doc.com/doc-3961949 .html