您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 8.第五讲 多元线性回归
多元线性回归分析在研究某个经济现象时,如果设定一个变量,该变量受其他因素的影响,该变量称为被解释变量。影响它的因素被称为解释变量。上一章我们讨论了仅有一个解释变量对被解释变量影响的例子。实际上,影响一个经济变量的因素可能会很多,因此,本章我们考虑具有多个解释变量的回归模型,即多元回归模型。例一:研究某种进口商品的数量(或金额)解释变量有哪些?解释变量:进口商品价格(到岸价、国内市场价)、国产替代品价格、收入水平、汇率水平等。例二:研究某城市房地产需求解释变量有哪些?解释变量:收入;资产;住房价格或指数;住房价格指数变化率;物价指数、通货膨胀和相关预期;利率等。例三:研究劳动者收入差异解释变量有哪些?解释变量:性别,教育年限,工龄,行业,年龄,种族,职位,地区。如果选取的解释变量太少,或者很多重要的解释变量没有考虑到,就会产生遗漏变量偏差问题。遗漏变量偏差问题第4章和第5章中的实证分析只集中在学生/教师比上,忽略了某些决定测试成绩的潜在重要因素,而仅仅将这些因素的影响纳入回归误差项中。这些遗漏因素包括教师质量、计算机使用率等学校特征和家庭背景等学生特征。例如:由于加利福尼亚州有庞大的移民人口,因此我们首先考虑遗漏的且显著有关的学生特征,即学区内还在学习英语的学生人数的普遍性。忽略学区内英语学习者的百分率可能使测试成绩对学生/教师比回归中斜率的OLS估计量有偏;也就是说,OLS估计量抽样分布的均值可能不等于学生/教师比变化一个单位对测试成绩的真正效应。理由是:仍在学习英语的学生在标准化测试中的表现可能要比母语是英语的学生差。如果大班学区内有很多学生还要学习英语,那么有可能在测试成绩对学生/教师比的OLS回归中发现了错误的相关关系并得到了一个夸大的系数估计值,而事实上减小班级规模对测试成绩的真正因果效应很小甚至为零。对加利福尼亚的数据进行测算:corr(学生/教师比,英语学习者百分率)=0.19。这一虽小却为正的相关系数表明学区内的英语学习者越多则学生/教师比往往也越高(较大班级)。若学生/教师比与英语学习者的百分率没有关系,则在测试成绩对学生/教师比回归中可以忽略英语学习者人数,但由于两者相关,因此在测试成绩对学生/教师比回归中的OLS系数有可能反映了这一影响,即斜率2.28包含了英语学习者因素的影响。遗漏变量偏差的定义若回归变量(学生/教师比)与回归中漏掉的并对因变量(测试成绩)起部分决定作用的某个变量(英语学习者百分率)相关,则OLS估计量有遗漏变量偏差。(1)遗漏变量与回归中的回归变量相关;(2)遗漏变量是因变量的一个决定因素。这两个条件都为真时,便会发生遗漏变量偏差。三个例子例1:英语学习者百分率。条件1成立,条件2成立。是遗漏变量。例2:测试的时间。条件1不成立,条件2成立。不是遗漏变量。例3:每个学生的停车空间。条件1成立,条件2不成立。不是遗漏变量。遗漏变量偏差的后果经典假设1:随机误差项ui的数学期望为0。即:E(ui|Xi)=0。将失效。一元线性回归模型中的误差项ui表示除Xi之外所有决定Yi的因素。若其中某个因素与Xi相关,则意味着误差项(包含了这个因素)与Xi相关。即,若遗漏变量是Yi的一个决定因索,则它被包含在误差项中,如果它与Xi相关,则意味着误差项ui与Xi相关。这就违反了第一个最小二乘假设,造成了严重的后果,即OLS估计量是有偏的。结论通过数据分组处理遗漏变量偏差多元线性回归模型多元线性回归模型:表现在线性回归模型中的解释变量有多个。总体回归模型总体回归方程(函数)01122kkYXXXu01122(|)ikkEYXXXX如何理解“控制住”某个变量01122kkYXXXu当我们分析某个解释变量对被解释变量的影响时,往往假定其他解释变量不发生变化。有时又称解释变量对被解释变量的“偏效应”。01122kkYXXXu011122()()kkYYXXXXu11YX二式减一式,得:11YX对于汽车数据,例如我们有如下方程:Price=14542+4.36*weight-104.8*length-86.7*mpg+ui如何理解4.36?i表示在其他解释变量保持不变的情况下,Xi每变化1个单位时,Y的值的变化;或者说i给出了Xi的单位变化对Y值的“直接”或“净”(不含其他变量)影响。假设(X1i,X2i,…Xki;Yi)i=1…n是总体的n次独立样本观测值。ikikiiiXXXY22110其中:k为解释变量的数目,j称为回归参数(regressioncoefficient)。i=1,2…,n习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。这样:模型中解释变量的数目为(k+1)Y1=β0+β1x11+β2x21+…+βkxk1+U1Y2=β0+β1x12+β2x22+…+βkxk2+U2…………………Yn=β0+β1x1n+β2x2n+…+βkxkn+UnikikiiiXXXY22110i=1,2…,n假设共有n个样本,则方程展开之后的形式是总体回归模型n个随机方程的矩阵表达式为μXβY令)1(212221212111111knknnnkkXXXXXXXXXX1)1(210kkβ121nnμ12nYYYY原方程可以简写为样本回归函数:用OLS方法估计总体回归函数kikiiiiXXXYˆˆˆˆˆ22110其随机表示式:ikikiiiieXXXYˆˆˆˆ22110ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项i的近似替代。样本回归函数的矩阵表达:βXYˆˆ或eβXYˆ其中:kˆˆˆˆ10βneee21e普通最小二乘估计对于随机抽取的n组观测值如果样本函数的参数估计值已经得到,则有:KikiiiiXXXYˆˆˆˆˆ22110i=1,2…n几个重要的计算结果)1(212221212111111knknnnkkXXXXXXXXXX12nYYYY1112112111'nkkknXXXXXXXX’X=1'iiikiiYXYXYXY根据最小二乘原理,参数估计值应该是下列方程组的解0ˆ0ˆ0ˆ0ˆ210QQQQk其中2112)ˆ(niiiniiYYeQ2122110))ˆˆˆˆ((nikikiiiXXXY于是得到关于待估参数估计值的正规方程组:kiikikikiiiiikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ(221102222110112211022110解该(k+1)个方程组成的线性代数方程组,即可得到(k+1)个待估参数的估计值,,,,,jjk012。正规方程组的矩阵形式1iiikiiYXYXY即YXβX)X(ˆ由于X’X为非奇异矩阵,故有YXXXβ1)(ˆ将上述过程用矩阵表示如下:定义残差:111222ˆˆˆˆˆnnnYYeeYYeYYYXeYY即求解方程组:0)ˆ()ˆ(ˆβXYβXYβ0)ˆˆˆˆ(ˆβXXββXYYXβYYβ0)ˆˆˆ2(ˆβXXββXYYYβ0ˆβXXYX得到:YXXXβ1)(ˆβXXYXˆ于是:此处用到了矩阵的微商的概念:假设A为n阶方阵(')(')XAXAAXX特别的,当A’=A,即A为对称矩阵(')2XAXAXX例题一我国1988年---1998年的城镇居民人均全年耐用消费品支出Y(元)、人均全年可支配收入X1(元)、以及耐用消费品价格指数X2(元)如下表所示,试利用excel和stata建立多元线性回归模型。yearY(人均耐用消费品支出)X1(人均全年可支配收入)X2(耐用消费品价格指数)1988137.161181.4115.961989124.561375.7133.351990107.911501.2128.211991102.961700.6124.851992125.242026.6122.491993162.452577.4129.861994217.433496.2139.521995253.424283140.441996251.074838.9139.121997285.855160.3133.351998327.265425.1126.39Excel的几个矩阵函数1。MINVERSE(矩阵区域)返回数组矩阵的逆矩阵。2。MMULT(矩阵1,矩阵2)返回两数组矩阵的乘积。要求矩阵1的列数=矩阵2的行数。3。TRANSPOSE(矩阵区域)返回数组矩阵的转置矩阵。特别注意,矩阵函数的使用。1。使用前需要“预判”矩阵区域的大小并选择,区域过大或者过小都会出错。2。矩阵函数必须使用数组公式,即完成后不能直接回车,必须Ctrl+Shift+Enter例题二多元回归中学生/教师比变化对测试成绩的效应估计大概为一元回归时的一半:即在一元回归方程中,STR减少一个单位则估计测试成绩提高2.28分。但在多元回归方程中,估计测试成绩仅提高1.10分。其原因在于多元回归中STR的系数是在固定(或控制)PctEL不变情况下的,而在一元回归中,PctEL不是固定不变的。我们了解到具有高英语学习者百分率的学区往往同时具有低测试成绩和高学生/教师比。如果在回归中遗漏了英语学习者百分率,则回归中降低学生/教师比对测试成绩的提高效应估计会偏大,因为这一估计同时反映了学生/教师比变化的效应和学区内英语学习者的遗漏效应。
本文标题:8.第五讲 多元线性回归
链接地址:https://www.777doc.com/doc-3237907 .html