您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 商业计划书 > 第二章 最小二乘法和线性回归_金融计量学
1第二章最小二乘法(OLS)和线性回归模型2目前中国的资本市场逐渐成熟,投资于股市成为众多企业乃至个人的重要理财方式。因此利用上市公司当年的公开的财务指标对来年盈利状况予以预测,就成为投资人最重要的决策依据。◆是什么决定性的因素影响到上市公司的股票价格?◆公司的发展与这种决定性因素的数量关系究竟是什么?◆怎样具体测定公司的发展与这种决定性因素的数量关系?◆如何对未来公司的股票价格进行预测?哪些因素最重要?引子:我们通常选择什么样的股票给我们带来盈利呢?3本章要点回归分析和回归函数经典线性回归模型的最小二乘估计拟合优度检验回归系数的t检验和置信区间检验多变量模型的回归系数的F检验回归模型预测模型选择与案例分析4第一节最小二乘法的基本属性一、有关回归的基本介绍金融、经济变量之间的关系,大体上可以分为两种(确定关系、非确定关系):(1)函数关系:Y=f(X1,X2,….,XP),其中Y的值是由Xi(i=1,2….p)所唯一确定的。(2)相关关系:Y=f(X1,X2,….,XP),这里Y的值不能由Xi(i=1,2….p)精确的唯一确定。5回归的古典意义:高尔顿遗传学的回归概念(父母身高与子女身高的关系)回归的现代意义:一个应变量对若干解释变量变量依存关系的研究回归的目的(实质):由固定的解释变量去估计和预测应变量的平均值6图2-1货币供应量和GDP散点图7由图中的点确定线的过程就是回归。对于变量间的相关关系,我们可以根据大量的统计资料,找出它们在数量变化方面的规律(即“平均”的规律),这种统计规律所揭示的关系就是回归关系,所表示的数学方程就是回归方程或回归模型。回归分析揭示的是被解释变量与解释变量之间的平均关系。8简单线性回归方程(总体回归方程PRF):yt被称作因变量/被解释变量/结果变量;xt被称作自变量/解释变量/原因变量;α、β为参数,或称回归系数;ut通常被称为随机误差/扰动项,简称误差项。模型中引入ut的原因?对“线性”的理解?tttuxy9总体回归方程(PRF)表示变量之间的真实关系,有时也被称为数据生成过程(DGP),PRF中的α、β值是真实值样本回归方程(SRF)是根据所选样本估算的变量之间的关系函数,方程为:总体y值被分解为两部分:模型拟合值()和残差项(),注意:SRF中没有误差项,一般假定ut~Ntxyˆˆˆˆˆˆtttyxuyˆˆtu2,010iY样本回归函数与总体回归函数的关系SRFPRFAiuieˆiY()iiEYXiYYiXX一元线性回归主要解决下列一些问题:(1)利用样本对未知参数α、β、进行估计;(2)对回归模型作显著性检验;(3)当x=x0时对Y的取值作预测。212二、参数的最小二乘估计(一)最小二乘法的基本原则普通最小二乘法(简记OLS);最小二乘法的基本原则是:最优拟合直线应该使各点到直线的距离的和最小,也可表述为距离的平方和最小。实际上是使残差平方和(简记RSS)最小。求偏导并另其为零可得:T21ˆttu22ˆxTxxyTyxtttˆˆyx13(二)最小二乘估计量的性质和分布经典线性回归模型的基本假设:(1),即残差具有零均值;(2)var∞,即残差具有常数方差,且对于所有x值是有限的;(3)cov,即残差项之间在统计意义上是相互独立的;(4)cov,即残差项与变量x无关;(5)ut~N,即残差项服从正态分布0tEu2tu0,jiuu0,ttxu2,014如果满足假设(1)-(4),根据高斯-马尔可夫定理,它们是最优线性无偏估计量(简记BLUE)。由OLS得到的估计量、具有一些特性:(1)无偏性,参数估计值的均值等于其真实值。(2)最小方差性,在所有线性无偏估计量里,OLS估计量具有最小方差。(3)有效性,由(1)和(2)可得。(4)一致性,随着样本容量增加,近似真实值。ˆˆ15(三)OLS估计量的方差、标准差和其概率分布1.OLS估计量的方差、标准差。给定假设(1)-(4),估计量的标准差计算方程如下:22222ˆxTxTxsxxTxsSEtttt22211ˆxTxsxxsSEtt2ˆ2Tust其中,是残差的估计标准差。16参数估计量的标准差具有如下的性质:(1)样本容量T越大,参数估计值的标准差越小;(2)和都取决于s2。s2是残差的方差估计量。s2越大,残差的分布就越分散,这样模型的不确定性也就越大。如果s2很大,这意味着估计直线不能很好地拟合散点;ˆSEˆSE17(3)参数估计值的方差与成反比。其值越小,散点越集中,这样就越难准确地估计拟合直线;相反,如果越大,散点越分散,这样就可以容易地估计出拟合直线,并且可信度也大得多。比较图2-2就可以清楚地看到这点。2xxt2xxt18图2-2直线拟合和散点集中度的关系19(4)项只影响截距的标准差,不影响斜率的标准差。理由是:衡量的是散点与y轴的距离。越大,散点离y轴越远,就越难准确地估计出拟合直线与y轴的交点(即截距);反之,则相反。2tx2tx2tx202.OLS估计量的概率分布给定假设条件(5),即~,则也服从正态分布,系数估计量也是服从正态分布的:需要注意的是:如果残差不服从正态分布,但只要CLRM的其他假设条件还成立,且样本容量足够大,则通常认为系数估计量还是服从正态分布的。tu2,0Nty1,0Nvarˆ~-1,0~varˆNˆˆSE~2TtˆˆSE~2Tt21第二节一元线性回归模型的统计检验一、拟合优度检验拟合优度可用R2表示:模型所要解释的是y相对于其均值的波动性,即(总平方和,简记TSS),这一平方和可以分成两部分:=+。是被模型解释的部分,记为称为回归平方和,简记ESS。是不能被模型所解释的残差平方和RSS。2yyt2yyt2ˆyyt2ˆtu2ˆyy2ˆtu22TSS、ESS、RSS的关系以下图来表示更加直观一些:图2-4TSS、ESS、RSS的关系23拟合优度=因为TSS=ESS+RSS所以R2=(2.39)2RTSSESS(2.37)(2.38)TSSRSSTSSRSSTSSTSSESS11,02RR2越大,说明回归线拟合程度越好;R2越小,说明回归线拟合程度越差。由上可知,通过考察R2的大小,我们就能粗略地看出回归线的优劣。24但是,R2作为拟合优度的一个衡量标准也存在一些问题:(1)具有不同被解释变量的模型之间是无法来比较R2的大小的。(2)通常只要增加解释变量,R2就会不断的增大,这样我们就无法判断出这些解释变量是否应该包含在模型中。(3)R2的值经常会很高,达到0.9或更高,所以我们无法判断模型之间到底孰优孰劣。通常用调整后的R2,记为22111RKTTR2R25二、假设检验回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。假设检验采用的逻辑推理方法是反证法先假定原假设正确,然后根据样本信息,观察由此假设而导致的结果是否合理,基于“小概率事件不易发生”原理判断是否接受原假设。26假设检验有两种方法:置信区间检验法(confidenceintervalapproach)和显著性检验法(testofsignificanceapproach)。显著性检验法中最常用的是t检验和F检验,前者是对单个变量系数的显著性检验,后者是对多个变量系数的联合显著性检验。27(一)t检验(1)对总体参数提出假设H0:1=0,H1:10(2)以原假设H0构造t统计量,并由样本计算其值1ˆ1ˆSt(3)给定显著性水平,查t分布表得临界值t/2(n-2)(4)比较,判断若|t|t/2(n-2),则拒绝H0,接受H1;若|t|t/2(n-2),则拒绝H1,接受H028图2-5双侧检验拒绝区域和非拒绝区域分布29(1)用OLS法回归方程得到β的估计值及其标准差。(2)选择一个显著性水平(通常为5%),这相当于选择95%的置信度。查t分布表,获得自由度为T-2的临界值。(3)所建立的置信区间为(,)(4)如果零假设值落在置信区间外,我们拒绝的原假设;反之,不能拒绝。ˆˆSEcrittcritˆtˆSEcritˆtˆSE(二)置信区间检验**0:H30(三)t检验与置信区间检验的关系因此,实际上t检验法与置信区间法提供的结果是完全一样的。(四)第一类错误和第二类错误错误地拒绝;错误的接受。(五)P值和检验的势*critcritˆ-ttˆSEcritˆtˆSE*critˆtˆSE31第三节多变量线性回归模型的统计检验一、多变量模型的简单介绍多元线性回归一般方程:t=1,2,3….Ttktktttuxxxy......33221其中:解释变量的数目为k-1(x2t,x3t…,xkt)个,j称为偏回归系数,(β1’β2’…..βk)分别衡量了解释变量对因变量y的边际影响的程度。矩阵形式为y是T×1矩阵,X是T×k矩阵,β是k×1矩阵,u是T×1矩阵uXy多元线性回归模型的基本假定:假设1,解释变量是非随机的或固定的,且各X之间互不相关(无多重共线性)。假设2,随机误差项具有零均值、同方差及不序列相关性。假设3,解释变量与随机项不相关。假设4,随机项满足正态分布。3233在多变量回归中残差向量为:Tuuuuˆˆˆˆ21M残差平方和为:2222212121ˆˆˆˆˆˆˆˆˆˆˆˆtTTTuuuuuuuuuuuuRSSKML34可以得到多变量回归系数的估计表达式yXXXk121ˆˆˆˆM同样我们可以得到多变量回归模型残差的样本方差kTuusˆˆ2参数的协方差矩阵12ˆvarXXs35OLS估计量的性质:1、线性2、无偏性3、最小方差性同时,随着样本容量增加,参数估计量具有渐进无偏性、渐进有效性、一致性。36二、拟合优度检验在多变量模型中,我们想知道解释变量一起对因变量y变动的解释程度。我们将度量这个信息的量称为多元判定系数R2。在多变量模型中,下面这个等式也成立:TSS=ESS+RSS其中,TSS为总离差平方和;ESS为回归平方和;RSS为残差平方和。37与双变量模型类似,定义如下:即,R2是回归平方和与总离差平方和的比值;与双变量模型唯一不同的是,ESS值与多个解释变量有关。R2的值在0与1之间,越接近于1,说明估计的回归直线拟合得越好。TSSESSR238三、假设检验(一)t检验在多元回归模型中,t统计量为:*1111ˆˆtSE*2222ˆˆtSE……*ˆˆkkkktSE均服从自由度为(n-k)的t分布。下面的检验过程跟双变量线性回归模型的检验过程一样。39(二)、F检验F检验的第一个用途是对所有的回归系数全为0的零假设的检验。第二个用途是用来检验有关部分回归系数的联合检验,就方法而言,两种用途是完全没有差别的。40为了解联合检验是如何进行的,考虑无约束回归模型:uxxykk221假设我们想检验其中q个回归系数是否同时为零,将所有变量分为两组:uxxxxykkqkqkqkqk11221uxxyqkqk221如果假定所有后q个系数都为零,即建立
本文标题:第二章 最小二乘法和线性回归_金融计量学
链接地址:https://www.777doc.com/doc-3640921 .html