您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > part2 线性回归模型1
第二部分线性回归模型Ch6、7双变量模型——线性回归的基本思想、实现步骤Ch8多变量模型Ch9其它函数形式的回归模型Ch10包含虚拟变量的回归模型实际运用得最多2第6、7章双变量模型§1回归分析概述§2双变量回归模型的基本概念§3参数估计:普通最小二乘法§4双变量模型的统计检验(包括假设检验、预测、结果报告、评价)§5双变量回归的EViews操作3§1.回归分析概述回归分析:一种统计技术在计量经济学中被大量使用主要用意:分析一个叫做被解释变量的变量对另外一个(或多个)叫做解释变量的变量的统计依赖性4三个例子1、对中国父子身高关系的研究Y:儿子身高,X:父亲身高2、产品销售量与广告支出的关系Y:销售量,X:广告支出3、气温、雨量、施肥量与作物收成Y:收成,X:气温、雨量、施肥量5回归分析可以用来:1、找到被解释变量(Y)与解释变量(X)运动的相互关系,并检验某些假设如:固定其它条件不变,施肥量每增加一单位,收成变化多少?是增收还是减产?2、在已知解释变量(X)的基础上,估计或预测被解释变量(Y)的均值如:估计身高170的父亲,其儿子的平均身高3、指导决策如:制定最优广告投入方案6回归与因果关系变量间存在统计上的依赖关系≠因果关系(它必须有理论根据或逻辑上的支持)例子:把前例中的Y和X位置互换,农作物收成(X)与降雨量(Y)很难说是因为收成好,所以降雨量……7术语和符号1、被解释变量与解释变量的多种叫法被解释变量Explainedvariable解释变量Explanatoryvariable应变量Dependentvariable自变量Independentvariable预测子Predictand预测元Predictor回归子Regressand回归元Regressor响应Response控制变量Controlvariable内生变量Endogenous外生变量ExogenousvariableYX82、回归模型的分类和叫法双变量回归、一元回归、简单回归多变量回归、多元回归、复变量回归3、符号约定被解释变量——Y解释变量——X横截面数据——下标i时间序列数据——下标t9§2.双变量回归的基本概念1、总体回归线(PRL):一个假想例子假定某地区参与博彩的人口总体为100人,我们要研究每周博彩支出Y和每周个人可支配收入X之间的关系10表6-1每周博彩支出与每周个人可支配收入(美元)150175200225250275300325350375各个消费者的博彩支出28333536384042434546273131343637393539402529303133323431333433272829303031303031232426272829302927281520222625272933303218182023232526322830121517212222243032311314161820182531323315101916183223253431均值20.922.124.426.127.329.230.331.933.033.6YX11散点图01020304050125150175200225250275300325350375400X每周个人可支配收入Y每周博彩支出12直观印象:Y随X的增加而增加(收入越高越可能花更多的钱购买彩票)对于每一个给定的X,算出Y的条件均值。例如:E(y︳x=150)=(28+27+…+15)×1/10=20.9E(y︳x=175)=(33+31+…+10)×1/10=22.113X(收入)Y(博彩支出)1501752002252502753003253503750总体回归线(PRL)14总体回归线(PopulationRegressionLine)在几何意义上,总体回归线就是解释变量取给定值时,被解释变量的条件均值或期望值的轨迹。(X取遍所有可能值,然后把的点连起来))=(iXXYE152、总体回归函数(PRF)(PopulationRegressionFunction)——截距系数——斜率系数,两者都是回归系数/参数它是总体回归线的数学表达式12EYXiiBBX()=+intercept2B1BslopeRegressioncoefficientsParameters16总体回归函数的随机设定一般说来,收入相同的个体博彩支出与支出的均值是有差异的。X=XY(YX)iiiE当时,X(收入)Y(博彩支出)u20.9u2524.030.315030017这种差异称为离差(Deviation),表述如下:其中,ui是一个可正可负的的随机变量,称为随机干扰项/扰动项/误差项(Stochasticdisturbance/Stochasticerror))XY(YiiiEu12iiiYBBXu总体回归函数的随机表达18随机干扰项的性质和意义它是从模型中省略下来,但又集体地影响着Y的全部变量的替代物。12iBBX+博彩支出确定性成分:可支配收入(X)随机成分:其它变量的影响如性格、年龄、性别另外一些说不清的随机事件:如某几天心情好,多买点iu193、样本回归线/样本回归函数由于总体往往不能直接观测,因而要在样本信息的基础上,用SRF来估计PRF。仍以假定的博彩问题为例在该例中,要得到某地区所有个人的博彩支出和收入资料几乎不可能(总体为100人是人为假设的)假设我们从未见过表6-1,仅有表6-2的数据这些数据是表6-1的一个随机样本20表6-2总体的一个随机样本YX1815024175262002322530250272753430035325333504037521X(收入)Y(博彩支出)1501752002252502753003253503750总体回归线(PRL)样本回归线(SRL)22样本回归线/函数是对总体回归线/函数的估计K个不同的样本,会得到K条不同的样本回归线,它们是对总体回归线的K个不同的估计。假设我们从表6-1的总体中抽取另一个随机样本,见表6-323表6-3总体的另一个随机样本YX2315018175242002522528250272753130029325333503437524X(收入)Y(每周博彩支出)图6-3两个独立样本的样本回归线1201602002402803203604002040第二个样本的样本回归线第一个样本(表6-2)第二个样本(表6-3)第一个样本的样本回归线25哪一条样本回归线能够代表“真实”的总体回归线呢?若不知道总体回归直线,不可能有绝对的把握来回答这个问题。26回忆一下总体回归函数(PRF)的两种表述形式:均值形式:随机形式:对应地,样本回归函数(SRF)也有两种表述形式。12EYXiiBBX()=+12XiiiYBBu+2712ˆYXiibbSRF的均值形式:B1、B2的估计量的估计量)XY(iE注:估计量,也称统计量,它是一种运算规则或方法,告诉人们怎样运用手中样本所提供的信息去估计总体参数。12EYXiiBBX()=+28X(收入)Y(博彩支出)iXiY)YX(,iiie12ˆSRF:YXiibb+iYˆ2912YXiiibbe样本残差/回归残差/剩余项(residual)ui的估计量。它表示样本点与SRF之间的差距:SRF的随机形式:ˆYYiiieˆYYiiie12XiiiYBBu+30X(收入)Y(博彩支出)iXiY对某个Xi,有一个观测值Yi。)YX(,iiieiu总体与样本回归线12ˆSRF:YXiibb+12PRF:E(YX)XiiiBB+iYˆ)XE(Yii31回归分析的目的是通过SRF来估计PRF思考:既然SRF只不过是PRF的一个近似,能不能设计一种规则或方法,使得这种近似尽可能地做得好一些?或者说,尽管真实的B值永远不得而知,怎样构造SRF才能使B的估计值尽可能地“接近”真实的B?回归分析的第一阶段:参数估计32补充:“线性”一词的含义(课本104页)对变量线性:变量只以一次方的形式出现。几何上,回归函数线是一条直线。对参数线性:参数只以一次方的形式出现。约定:今后讨论的线性就是指对参数线性。思考题:114页习题6.8判断哪些是线性模型
本文标题:part2 线性回归模型1
链接地址:https://www.777doc.com/doc-6382211 .html