您好,欢迎访问三七文档
经济数据的特点与类型。1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gennewvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gennewvar=monthly(varname,YM)。.describe:数据的概貌.dropkeep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生gintc=log(tc):取自然对数.reg:OLS回归.Vce:协方差矩阵reg。。。,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE)或非线性最小二乘法(NLS)三类在大样本下渐进等价的统计检验:WaldtestLR(似然比检验)LM操作步骤如下:sysuseauto(调用数据集)Histmpg,normal(画变量mpg的直方图,并与正态密度比较)直方图显示,变量mpg的分布于正态分布有一定差距。变量可以取对数解决非正态分布的问题。异方差与GLS(广义最小二乘法)异方差的检验:看残差图、怀特检验(whitetest)、BP检验(BreuschandPagan)异方差的处理:1、OLS+稳健标准误(最好的)2、广义最小二乘法(GLS)3、加权最小二乘法(WLS)实例操作:1、使用数据:usenerlove.dta,clear2、regintcinqinplinpkinpf(进行回归)3、0.02.04.06.08.1Density10203040Mileage(mpg)4、画残差图:rvfplot上图可以发现当拟合值较小时,扰动项方差较大,继续考察残差与解释变量inq的散点图:rvpplotinq,结果与上图几乎一致,可能存在异方差,即扰动项的方差随着观测值而变。5、完成回归后,进行怀特检验:estatimtest,white_cons-3.5665131.779383-2.000.047-7.084448-.0485779inpf.4258137.10032184.240.000.2274721.6241554inpk-.2151476.3398295-0.630.528-.8870089.4567136inpl.4559645.2998021.520.131-.13676021.048689inq.7209135.017433741.350.000.6864462.7553808intcCoef.Std.Err.tP|t|[95%Conf.Interval]Total291.0668231442.02129738RootMSE=.39227AdjR-squared=0.9239Residual21.5420958140.153872113R-squared=0.9260Model269.524728467.3811819ProbF=0.0000F(4,140)=437.90SourceSSdfMSNumberofobs=145-1012Residuals-2024FittedvaluesP值显著,认为存在异方差6、完成回归后,进行BP检验:estathettest,iidestathottest,rhsiidestathottestinq,iid三种形式的检验都强烈拒绝同方差的原假设,存在异方差(这里只放一个形式的检验结果)7、处理异方差自相关:扰动项之间自相关自相关的例子:1、时间序列数据中通常具有某种连续性和持久性,如相邻两年的GDP增长率;2、截面数据中相邻的观测单位之间可能存在溢出效应,如相邻地区的农业产量收到类似天气变化的影响;3、对数据的人为处理如数据中包含移动平均数等;4、如果模型设定中遗漏了某个自相关的解释变量并被纳入到扰动项中,则会引起扰动项的自相关。自相关的检验:1、画图(不推荐)2、BG检验estatbgodfrey3、BOX-PierceQ检验4、DW检验estatdwatson.检验都要在OLS做完后才能做。自相关的处理:1、使用OLS+异方差自相关稳健的标准误;2、OLS+聚类稳健的标准误;3、使用可行广义最小二乘法(FGLS);4、修改模型设定自相关处理实例:1、使用数据icecream然后进行回归Total99.29190.0000Kurtosis2.6210.1055Skewness22.7940.0001Heteroskedasticity73.88140.0000Sourcechi2dfpCameron&Trivedi'sdecompositionofIM-testProbchi2=0.0000chi2(14)=73.88againstHa:unrestrictedheteroskedasticityWhite'stestforHo:homoskedasticityProbchi2=0.0000chi2(4)=36.16Variables:inqinplinpkinpfHo:ConstantvarianceBreusch-Pagan/Cook-WeisbergtestforheteroskedasticityBG检验显著拒绝了原假设无自相关,则认为存在自相关Q检验(略)、DW检验如下DW=1.02距离2很远可以认为存在自相关。由以上的检验可以看出扰动项之间存在自相关,因此OLS提供的标准误是不准确的,应使用异方差自相关稳健标准误,由于样本为30个,n四分之一=2.34,故取NEWey-West估计量的滞后值为P=3,结果如下:_cons.1973149.27021610.730.472-.3581223.752752income.0033078.00117142.820.009.0008999.0057156price-1.044413.834357-1.250.222-2.759458.6706322temp.0034584.00044557.760.000.0025426.0043743consumptionCoef.Std.Err.tP|t|[95%Conf.Interval]Total.12552335829.004328392RootMSE=.03683AdjR-squared=0.6866Residual.03527283526.001356647R-squared=0.7190Model.0902505233.030083508ProbF=0.0000F(3,26)=22.17SourceSSdfMSNumberofobs=30.regconsumptiontemppriceincomeH0:noserialcorrelation14.23710.0396lags(p)chi2dfProbchi2Breusch-GodfreyLMtestforautocorrelation.estatbgodfreyDurbin-Watsond-statistic(4,30)=1.021169.estatdwatson上图显示标准误与OLS标准误无多大区别,因此将滞后阶数增加为6,从上图可以看到无论截断参数是3还是6,标准误都变化不大,比较稳健。此外,前面提到自相关存在可能是因为模型设定不正确,因此考虑在解释变量中加入temp的滞后值,然后再进行OLS回归:然后使用BG检验是否存在自相关:_cons.1973149.33781090.580.564-.4970655.8916952income.0033078.00132782.490.019.0005783.0060372price-1.044413.9772494-1.070.295-3.053178.9643518temp.0034584.00040028.640.000.0026357.0042811consumptionCoef.Std.Err.tP|t|[95%Conf.Interval]Newey-WestProbF=0.0000maximumlag:3F(3,26)=27.63RegressionwithNewey-WeststandarderrorsNumberofobs=30.neweyconsumptiontemppriceincome,lag(3)_cons.1973149.32995330.600.555-.4809139.8755437income.0033078.001322.510.019.0005945.006021price-1.044413.9821798-1.060.297-3.063313.9744864temp.0034584.00035049.870.000.0027382.0041787consumptionCoef.Std.Err.tP|t|[95%Conf.Interval]Newey-WestProbF=0.0000maximumlag:6F(3,26)=52.97RegressionwithNewey-WeststandarderrorsNumberofobs=30.neweyconsumptiontemppriceincome,lag(6)_cons.1894822.23231690.820.423-.2899963.6689607income.0028673.00105332.720.012.0006934.0050413price-.8383021.6880205-1.220.235-2.258307.5817025L1.-.0022039.0007307-3.020.006-.0037119-.0006959--..0053321.00067047.950.000.0039484.0067158tempconsumptionCoef.Std.Err.tP|t|[95%Conf.Interval]Total.12479323228.004456901RootMSE=.02987AdjR-squared=0.7999Residual.02140604924.000891919R-squared=0.8285Model.1033871834.025846796ProbF=0.0000F(4,24)=28.98SourceSSdfMSNumberofobs=29.regconsumptiontempL.temppriceincome结果显示无自相关,而后DW值也改进为1.58,因此修改模型后扰动项基本不再存在自相关。模型设定与数据问题遗漏变量:被解释变量可能被加入到扰动项中解决方式:加入尽可能多的控制变量;使用代理变量;工具变量法;使用面板数据;随机试验或自然实验。其中代理变量应满足两个条件:多余性,仅通过影响遗漏变量而作用于被解释变量;剩余独立性,遗漏变量中不受代理变量影响的剩余部分与所有解释变量均不相关。多重共线性:某一解释变量可以由其他解释变量线性表出,即存在多重共线性。检测:先回归,然后estatvifVIF低于10即不存在多重共线性。工具变量,2SLS与GMM工具变量
本文标题:stata学习笔记
链接地址:https://www.777doc.com/doc-1537883 .html