您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第四讲模型设定和数据处理解析
模型设定和数据处理对模型本身的设定在前面的模型中,我们都假设模型的设置是合理的:1.模型变量的选择:到底应该选取哪些变量?2.具体应该选取什么形式:对数、二次方、交乘项?1.遗漏变量偏差遗漏变量与解释变量不相关遗漏变量与解释变量相关(内生性)2.无关变量的加入2.部分回归图一般一元线性模型可以利用线性拟合图观察二者模拟的优劣,但一般多元线性模型的多个解释变量之间可能相互影响,因此,需要求出每个变量对被解释变量的净的影响(剔除掉其他变量的影响)。regpricempgweightturnforeignavplots嵌套模型嵌套模型(大模型好还是小模型好)方法1:利用test检验例:下列两个模型哪个更优?lnwage=b0+b1*educ+b2*exper+b3*tenurelnwage=b0+b1*educ+b2*exper+b3*tenure+b4*educ^2+b5*exper^2方法2:利用赤池信息准则和贝叶斯信息准则选择最小的AIC和BICestatic例1:逐步加入educexpertenurenonwhite对lnwage的回归。例2:在下列模型中选择一个最佳的。lnwage=b0+b1*educlnwage=b0+b1*educ+b2*educ^2lnwage=b0+b1*educ+b2*educ^2+b3*educ^3非嵌套模型:两个方程包含的解释变量不相同或不完全相同J检验和Cox检验:nnest需要下载安装:finditnnest例:比较下列两个模型的优劣:reglnwageeducexpertenurereglnwageeducexpernonwhite遗漏高次项的检验1。Link检验。基本思想:如果模型的设定是正确的,那么y的拟合值的平方项将不应具有解释能力。(不再显著)reglnwageeducexpertenurelinktest(或许是遗漏了重要的解释变量)reglnwageeducexpertenureeduc2exper2linktest2。Ramsey检验。基本思想:如果模型设定无误,那么拟合值和解释变量的高阶项都不应再有解释能力。usewage1,clearreglnwageeducexpertenureestatovtest(或许是遗漏了重要的解释变量)reglnwageeducexpertenureeduc2exper2estatovtest交乘项的引入:现在的绝大多数模型都需要引入交乘项,以考虑不同变量之间的交互影响。例如:Y=b0+b1*X1+b2*X2+u引入交乘项之后:Y=b0+b1*X1+b2*X2+b3(X1*X2)+u分析:dY/dX2=b2+b3*X1X2对Y的边际效果依赖于X1。具体来说,如果X1系数为正,X1越大X2对Y的边际影响越大;如果X1系数为负,X1越大X2对Y的边际影响越小。对样本点的判断和处理残差的正态分布检验regpriceweightmpgturnforeignpredicte,reskdensitye,normal(密度函数图)pnorme(对中间部位敏感)qnorme(对尾部敏感)skteste(对偏度和峰度的检验)swilke残差分析和异常样本点的处理对特殊样本点的检验和处理:离群样本点、杠杆样本点和关键样本点。离群样本点:残差值较大的样本点杠杆样本点:与样本整体(X’X)很不相同的少数样本点关键样本点:对回归结果有重要影响的少数样本点图形分析regpriceweightmpgturnforeignlvr2plot(注意两条红线的含义)lvr2plot,mlabel(make)离群值的获得predicte,reslistmakee杠杆值的获得predictlev,leveragelistmakelev通过排序方式找到离群样本点和杠杆值样本predictlev1,leveragepredicte1,resgene2=e1^2gsort-lev1listmakepricelev1e2in1/10gsort-e2listmakepricelev1e2in1/10关键样本点通常既是离群样本点又是杠杆样本点DFITS统计量和DFBETA统计量加以观察。DFITS统计量的临界值:2*sqrt((k+1)/N))regpriceweightmpgturnforeignpredictd,dfitsdis2*sqrt(5/74)listmakepriceweightdifabs(d)0.51987524练习:将关键样本点删除,重新回归方程,观察结果的变化。关键样本点的处理1.关键样本点本身不一定异常。2.如果关键样本点存在数据错误(如输入错误),加以修正。3.部分调查问卷的关键样本点可以考虑删除。4.如果关键样本点的存在合理,考虑使用Tobit模型。虚拟变量许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”,虚拟变量对于m个类别的分类变量,可以按照两种方法加以设定。保留模型中的常数变量,仅加入(m-1)个虚拟变量;或者m个虚拟变量全部作为解释变量,将常数项删掉。最著名的是季节变量。引入虚拟变量会产生三种情况:1。引入虚拟变量后仅截距项发生变化。2。引入虚拟变量后仅斜率发生变化。3。引入虚拟变量后截距项和斜率同时发生变化。例如我们做以下回归:regpriceweightregpriceweightifforeign==0regpriceweightifforeign==105,00010,00015,000汽车价格2,0003,0004,0005,000Weight(lbs.)国产车国产拟合进口车进口拟合整体拟合05,00010,00015,000汽车价格2,0003,0004,0005,000Weight(lbs.)国产车国产拟合进口车进口拟合整体拟合1。仅截距发生变化。我们以国产还是进口作为虚拟变量,为了熟悉虚拟变量的产生过程,这里不用foreign,而是产生一个新的虚拟变量d1(虚拟变量的生成要灵活运用gen语句和replace语句)。gend1=0replaced1=1ifforeign==1regpriced1weight和前面做的回归比较,d1反映了进口车和国产车常数项即截距的差异。理论分析:加入虚拟变量后,方程变为price=b0+b1*d1+b2*weight+u国产车,即d1=0时:方程变为:price=b0+b2*weight+u进口车,即d1=1时:方程变为:price=(b0+b1)+b2*weight+u结论:截距变化但斜率未变。2。仅斜率发生变化。产生一个新的虚拟变量d2。为了使斜率变化,产生一个交乘项d2_weight。gend2=0replaced2=1ifforeign==1gend2_weight=d2*weightregpriceweightd2_weightlength和前面做的回归比较,斜率有变化。理论分析:加入虚拟变量的交乘项后,方程变为price=b0+b1*weight+b2*d2_weight+u国产车,即d2=0时:d2_weight=0方程变为:price=b0+b1*weight+u进口车,即d2=1时:d2_weight=weight方程变为:price=b0+(b1+b2)*weight+u结论:斜率变化。2。截距斜率同时变化。产生一个新的虚拟变量d3。为了使斜率同时变化,产生一个交乘项d3_weight。gend3=0replaced3=1ifforeign==1gend3_weight=d3*weightregpriced3weightd3_weightlength和前面做的回归比较,截距、斜率均有变化,但截距的变化不显著。理论分析:加入虚拟变量和交乘项后,方程变为price=b0+b1*d3+b2*weight+b3*d3_weight+u国产车,即d3=0时:方程变为:price=b0+b3*weight+u进口车,即d3=1时:方程变为:price=(b0+b1)+(b2+b3)*weight+u结论:截距斜率同时变化。
本文标题:第四讲模型设定和数据处理解析
链接地址:https://www.777doc.com/doc-3342736 .html