您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > chap07Stata与模型的设定
主要内容:1、遗漏变量的检验2、解释变量个数的选择3、多重共线性与逐步回归法4、极端数据的诊断与处理5、虚拟变量的处理6、经济结构变动的Chow检验实验7-1遗漏变量的检验一、实验基本原理二、实验数据和实验内容根据统计资料得到了美国工资的横截面数据,变量主要包括:wage=工资,educ=受教育年限,exper=工作经验年限,tenure=任职年限,lwage=工资的对数值。完整的数据在本书附带光盘的data文件夹的“wage1.dta”工作文件中。利用wage1的数据,分别利用Link方法和Ramsey方法检验模型是否遗漏了重要的解释变量。三、实验操作指导1.使用Link方法检验遗漏变量Link方法进行检验的基本命令语句为:linktest[if][in][,cmd_options]在这个命令语句中,linktest是进行Link检验的基本命令,if是表示条件的命令语句,in是范围语句,cmd_options表示Link检验的选项应该与所使用的估计方法的选项一致,例如检验之前使用的回归regress命令,则此处的选项应与regress的选项一致。例如,利用wage1的数据,检验模型是否遗漏了重要的解释变量,应该输入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenurelinktest第一个命令表示打开数据文件wage1,第二个命令语句是对模型进行回归估计,第三个命令就是进行遗漏变量的Link检验,检验结果如图7.1所示。从第二个表格中,可以看到hatsq项的p值为0.018,拒绝了hatsq系数为零的假设,即说明被解释变量lwage的拟合值的平方项具有解释能力,所以可以得出结论原模型可能遗漏了重要的解释变量。为了进一步验证添加重要变量是否会改变Link检验的结果,我们生成受教育年限educ和工作经验年限exper的平方项,重新进行回归并进行检验,这时输入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2linktest第一个命令语句的作用是生成变量educ2,使其值为变量educ的平方;第二个命令语句的作用是生成变量exper2,使其值为变量exper的平方;第三个命令语句的作用是对进行回归估计;第四个命令就是进行遗漏变量的Link检验,检验结果如图7.2所示。2.使用Ramsey方法检验遗漏变量Ramsey方法进行检验的基本命令语句为:estatovtest[,rhs]在这个命令语句中,estatovtest是进行Ramsey检验的命令语句,如果设定rhs,则在检验过程中使用解释变量,如果不设定rhs,则在检验中使用被解释变量的拟合值。例如,利用wage1的数据,使用Ramsey方法检验模型是否遗漏了重要的解释变量,应该输入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenureestatovtest在这组命令语句中,第一个命令的功能是打开数据文件,第二个命令是对模型进行回归估计,第三个命令就是进行遗漏变量的Ramsey检验,检验结果如图7.3所示。在图7.3中,第一个图表仍然是回归结果,第二部分则是Ramsey检验的结果,不难发现Ramsey检验的原假设是模型不存在遗漏变量,检验的p值为0.0048,拒绝原假设,即认为原模型存在遗漏变量。为了进一步验证添加重要变量是否会改变Ramsey检验的结果,我们采取Link检验中的方法,生成受教育年限educ和工作经验年限exper的平方项,重新进行回归并进行检验,这时输入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatovtest这里不再赘述这些命令语句的含义,调整之后的检验结果如图7.4所示,可以发现此时检验的p值为0.5404,无法拒绝原假设,即认为模型不再存在遗漏变量。实验7-2解释变量个数的选择一、实验基本原理好的经济理论的标准通常是希望通过更为简洁的模型来更加精确地描述复杂的经济现象,但是这两个目标通常是矛盾的,因为通过增加解释变量的个数可以提高模型的精确程度,但是同时也牺牲了模型的简洁性。因此,在现实的经济研究过程中,通常使用信息准则来确定解释变量的个数,较为常用的信息准则有两个:(1)赤池信息准则,又称为AIC准则,其基本思想是通过选择解释变量的个数,使得如下目标函数最小。在这个公式中,e代表残差序列,n代表样本数量,K代表解释变量的个数。通过这个目标函数可以看出,第一项是对拟合优度的奖励,即尽可能地使残差平方和变小,第二项是对解释变量个数增多的惩罚,因为目标函数是解释变量个数的增函数。(2)贝叶斯信息准则,又称为BIC准则,其基本思想是通过选择解释变量的个数,使得如下目标函数最小。在这个公式中,e代表残差序列,n代表样本数量,K代表解释变量的个数。通过这个目标函数可以看出,BIC准则与AIC准则的唯一区别就是K的权重不同,一般来说ln(n)2,所以BIC更加注重模型的简洁性。二、实验数据和实验内容:根据统计资料得到了美国工资的横截面数据,变量主要包括:wage=工资,educ=受教育年限,exper=工作经验年限,tenure=任职年限,lwage=工资的对数值。完整的数据在本书附带光盘的data文件夹的“wage1.dta”工作文件中。利用wage1的数据,来确定以下两个模型:模型和模型哪个更为合理(其中educ2和exper2分别为educ和exper的平方项)。三、实验操作指导使用信息准则,对模型进行检验的命令如下:estatic[,n(#)]在这个命令语句中,estatic是进行检验的命令语句,选项n(#)的功能是指定BIC准则中的n值,一般使用默认值。例如,利用wage1的数据,获得模型的AIC和BIC值,应该输入以下命令:usec:\data\wage1.dta,clearreglwageeducexpertenureestatic第一个命令表示打开数据文件wage1,第二个命令语句是对模型进行回归估计,第三个命令就是进行信息准则值的计算,计算结果如图7.5所示,AIC值为635.10,BIC值为652.16。为了对比分析,我们仍然采取Link检验中的方法,生成受教育年限educ和工作经验年限exper的平方项,建立新的模型重新对其进行回归并计算,这时输入的命令如下:geneduc2=educ^2genexper2=exper^2reglwageeducexpertenureeduc2exper2estatic这里不再赘述这些命令语句的含义,调整之后的计算结果如图7.6所示,可以发现此时计算的AIC值为583.66,BIC值为609.25。通过这两个模型信息准则值的对比分析,可以得出结论,第二个模型的信息准则值更小,所以此模型优于第一个模型。实验7-3多重共线性与逐步回归法一、实验基本原理多重共线性问题在多元线性回归分析中是很常见的,其导致的直接后果是方程回归系数估计的标准误差变大,系数估计值的精度降低等。多重共线性的问题对于Stata软件来说并不显著,因为Stata会自动剔除完全的多重共线性,但是出于知识的完整性,这里还是介绍一下Stata对于多重共线性的识别和处理方法。多重共线性的诊断方法主要有:(1)直观上说:当模型的拟合优度非常高且通过F检验,但多数解释变量都不显著,甚至解释变量系数符号相反时,可能存在多重共线性。(2)对由解释变量所组成的序列组进行相关分析时,如果有些变量之间的相关系数很高,则也反映出可能存在多重共线性。(3)使用命令estatvif,对膨胀因子进行计算,经验上当VIF的均值=2且VIF的最大值接近或者超过10时,通常认为有较为严重的多重共线性。当确认模型存在多重共线性时,通常有两种解决方法消除其影响:一种是收集更多的数据,增大样本容量;另一种是通过逐步回归,改进模型的形式。在现实研究过程中,增大样本容量的操作不易执行,所以逐步回归法应用更为广泛。逐步回归法的基本原理是:先分别拟合被解释变量对于每一个解释变量的一元回归,并将各回归方程的拟合优度按照大小顺序排列,然后将拟合优度最大的解释变量作为基础变量,然后逐渐将其他解释变量加入模型中并同时观测t检验值的变化,如果t检验显著则保留该变量,否则去除,不断重复此过程直到加入所有显著的解释变量。二、实验数据和实验内容根据统计资料得到了某市旅游业的相关数据,变量主要包括:Y=旅游收入(单位:万元),X1=某市旅游人数(单位:人),X2=城镇居民人均旅游支出(单位:元),X3=农村居民人均旅游支出(单位:元),X4=公路里程(单位:公里),X5=铁路里程(单位:公里)。完整的数据在本书附带光盘的data文件夹的“lvyou.dta”工作文件中。利用lvyou数据估计方程,判断是否存在多重共线性,若存在,采用逐步回归法消除多重共线性。三、实验操作指导1.估计方程若要进行多重共线性的检验与修正,首先要建立基本的回归模型。按照第六章所讲述内容,建立回归模型的命令如下:usec:\data\lvyou.dta,clearregressYX1X2X3X4X5执行建立回归的命令,可以得到如图7.7所示的回归结果,通过判断发现:整个模型的拟合优度较高,但是变量X1和X5未通过t检验,且X5的系数为负,与常理违背,因为在通常情况下,随着铁路里程的增加,交通更加方便,所以旅游收入应该增加。综上所述,可以初步认为该模型存在多重共线性。2.多重共线性检验多重共线性的检验通常采取两种方法,一种是计算膨胀因子,一种是计算变量之间的相关系数,下面将会详细介绍。(1)计算膨胀因子的命令为:estatvif[,uncentered]在这个命令语句中,estatvif是计算膨胀因子的命令语句,uncentered选项通常使用在没有常数项的模型中。在本实验中,在回归之后输入此命令,就可得到如图7.8所示的膨胀因子数值。结果显示该模型的膨胀因子的平均值为14.50,远远大于经验值2,膨胀因子最大值为20.06,远远大于经验值10,所以可以认为该模型存在严重的多重共线性。(2)计算相关系数的命令语句为:pwcorr[varlist][if][in][weight][,pwcorr_options]在这个命令语句中,pwcorr是计算相关系数的命令,varlist为将要计算相关系数的变量,if为条件语句,in为范围语句,weight为权重语句,options选项如表7.1所示。在本实验中,可以通过计算变量X1、X2、X3、X4和X5之间的相关系数来判断模型是否存在多重共线性,所使用的命令为:pwcorrX1X2X3X4X5这个命令语句显示的相关系数矩阵如图7.9所示,通过观察可以得到解释变量X1与X2、X4、X5之间,X2与X3、X4、X5之间,以及X4与X5之间的相关系数非常高,因此可以认为解释变量之间存在较为严重的多重共线性。3.逐步回归法(1)手动逐步回归法逐步回顾法的第一步是要分别拟合Y对每一个变量的回归方程,从中选出拟合优度最高的方程作为基础方程。这个操作所使用到的命令为:regressYX1regressYX2regressYX3regressYX4regressYX5经过这步操作,可以得到如表7.2所示的回归结果,为了便于观察,表7.2是根据Stata输出结果整理而成的。表7.2内容显示,拟合优度的大小排列顺序为X2X5X1X4X3,所以这时应将X2作为基础解释变量,然后将X5、X1、X4、X3分别加入回归方程,进行逐步回归。首先,将X5加入方程进行回归,这
本文标题:chap07Stata与模型的设定
链接地址:https://www.777doc.com/doc-1238575 .html