您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 第二章简单回归sk1
1第二章简单回归2第一节古典回归的含义和假设前提3一,回归的基本含义•回归分析是计量经济学模型中最经常使用的方法之一。回归的概念最早来自于弗朗西斯.加尔顿,他研究了子女身高和父母身高之间的关系,他发现,父母高,孩子也高,反之,父母矮,孩子也矮。但是在,给定父母身高,孩子的平均身高却趋向于回归到全体人口的平均身高,即回归到中等水平。•现代回归分析的定义是关于研究应变量和一个或多个自变量或解释变量之间依赖关系的分析。4相应地,Y和X的称呼如下:•(1)应变量(dependentvariable)自变量(independentvariable)•(2)被解释变量(explainedvariable)解释变量(explanatoryvariable)•(3)内生变量(endogenousvariable外生变量(exogenousvariable)•(4)目标变量(targetvariable)控制变量(controlvariable)•(5)预测子(predictand)预测元(predictor)•5•简单回归分析主要用来描述被解释变量y和解释变量x之间的关系,当解释变量只有一个时,称为简单回归。例如,y=销售,x=广告支出这里我们要确定销售和广告支出之间的关系。6•当有多个解释变量时,称为多元回归。例如,y=一个家庭的消费支出x1=家庭收入x2=家庭的金融资产x3=家庭规模(大小)这里需要确定家庭消费支出和家庭收入、家庭的金融资产、及家庭规模之间的关系。7二,古典回归的假设前提•Y和X之间的关系可以描述成y=f(x)这里我们需要区别关于y和x两类关系:•1,确定的或数学的关系:y=α+βx•2,统计上的关系,即对于给定x值,不存在一个唯一y,但是可以准确地以概率的方式描述。回忆前面提及的计量经济学方法的时候,我们提到统计意义上的描述的含义。如果y和x之间存在线性关系,则从统计学意义上描述为:•y=α+βx+μ•存在一个干扰项μ。8•干扰项的用处:•1,对于不可预测的随机性的反应。•2,由于大量被省略的变量的作用。•3,y测量上的误差。9古典回归的假设•对于上述的表达式,我们需要估计参数α和β。为了进行估计,需要对干扰项作出严格的假设,•1,误差分布的均值为零,即对于所有i,E(μi)=0,•2,误差项的方差相同,Var(μi)=σ210•3,误差项相互独立,即Cov(μi,μj)=0•4,所有的xi都是可观察的并且独立于μi,Cov(xi,μ)=0•5,误差服从于正态分布,均值是0,方差是σ26,X是非随机的11•在上述假设下,我们就可以开始对简单回归模型中的参数进行估计了。•后面随着一些假设的放开,使用传统的最小二乘法将会出现很多问题,例如,放开假设2,将会出现异方差,放开假设3,就是自相关问题。放开假设4,就是联立方程问题。12第二节参数估计的方法•在简单回归模型中,估计参数α和β的方法主要有:•1,矩法(themethodofmoments)•2,最小二乘法(themethodofleastsquares)•3,最大似然法(themethodofmaximumlikelihood)我们将主要介绍前两种方法。13矩估计法•由对误差的假设表明:E(μi)=0Cov(xi,μ)=0上述假设是对应总体而言的。矩法估计中,则要利用样本来表述上式内容。14关于残差的定义•假设αhat、βhat分别是α和β的估计值,样本中的误差项被称为残差,表示为μihat,定义为•μhat=yi-αhat-βhat•对应于样本1/nΣμihat=0Σμihat=01/nΣxiμihat=0Σxiμihat=015Σ(yi-αhat-βhat)=0Σxi(yi-αhat-βhat)=0利用上面的两个方程我们就可以估计出参数α和β16例题1•月销售收入y(千元)广告支出x(百元)•131•242•323•464•58517最小二乘法•所谓最小二乘法就是使参差的平方和最小,利用求极值的方法估计参数。下面我们就详细介绍最小二乘法。18...…….•估计单一要素的生产函数模型。数据如下:观测值产出工作时间(小时)1111021073121046557861087968107911910101019•已知模型为y=α+βx+μ,y为产出,x为工作时间(单位为小时),请估计该模型。20第三节最小二乘估计的结果BLUE21最小二乘估计的结果——高斯马尔可夫定理内容及证明•对简单线性模型而言,最小二乘估计值是原值的最佳、线性、无偏估计。即BLUE(bestlinearunbiasedestimators)。•所谓最佳指在所有无偏估计量中,最小二乘法得到的估计量的方差最小;无偏指估计值的期望值等于原值;线性则指估计量与yi存在线性关系。下面我们将给大家证明这一定理。22第四节最小二乘估计的统计特征——区间估计和假设检验•本节将主要讲述如何推导估计值的方差,并利用这些条件进行参数的置信区间估计及假设检验。利用所计算出的估计参数的标准差就可以进行区间估计和假设检验。假设检验分系数的检验和总体回归显著性检验23方差分析•与简单回归分析相关的一个问题是方差分析。TSS=ESS+RSS,对TSS的这些构成部分进行研究就叫做从回归的角度做方差分析。方差分析的目的就是将TSS分解,然后分析检验ESS统计上的显著性,这相当于检验β统计上的显著性。24方差分析表(ANOVA)变化来源平方和自由度均方和来自回归ESS1ESS/1来自参差RSSn-2RSS/n-2总体TSSn-1ESS/1F=RSS/n-225根据前面单一要素的生产函数模型的结果得出下面的方差分析表变化来源平方和自由度均方和来自回归15.75115.75来自参差14.65814.65/8=1.83总体30.49F=15.75/1.83=8.6t检验的值为0.75÷0.256=2.93t2=F26例题下表为小时工资均值与受教育水平的数据观测值工资y(美元/小时)受教育水平x(年)14.4567625.7700735.9787847.3317957.31821066.58441177.81821287.835113911.0223141010.6738151110.8361161213.6150171313.53101827假设模型为y=α+βx+μ估计结果如下:y=0.7437+0.6416xR2=0.8944(0.8355)(0.0664)1)解释模型2)以95%的概率估计参数的置信区间3)是否拒绝真实斜率系数为零的假设?使用什么检验?4)建立方差分析表,并检验真实斜率系数是否为零?使用什么检验?5)假如没有给定R2的值,能否从回归的其他数值中得到它?28•ANOVOA•平方和自由度均方和•ESS74.938174.938•RSS8.8454118.8454/11•TSS83.7834•F=74.938/8.8454*11=93.191729•R2=t2/t2+(n-2)•=9.65362/9.65362+11•=93.192/104.192•=0.894430第五节利用简单回归模型进行预测•根据估计出的模型,我们可以预测在给定某一个x值时y的值为多少,也可以预测平均的y值,如在消费函数中,在给定的收入条件下,以一定的概率预测消费支出或平均的消费支出的置信区间或取值范围,在经济现实中,这种置信区间的估计更由一定的现实意义。31•例题1,使用前面关于广告支出和销售的例子,现在假定广告支出增加到600元,以90%的概率预测销售收入和未来一段时间平均销售收入的置信区间。32•下面是10个家庭的收入和消费支出的数据:•家庭收入x消费支出y•1800770•212001100•320001300•430002200•540002100•650002700•770003800•890003900•9100005500•1012000660033•估计出的模型是y=380.53+0.4845x,分别以95%的概率预测当收入为6000元时的家庭消费支出和平均的家庭消费支出。34第六节逆回归y对x的回归被称做直接回归,有时,x对y的回归即逆向回归也是有意义的。例如,y=工资x=资力(qualification)y对x的回归研究的时无论男女,如果具有同样资力能否得到相同的工资呢?而如果人们想了解具有相同工资水平的男女是否具有相同的资力呢?这就需要进行反向回归,即逆回归。35需要进行逆回归的主要原则:•1,如果因果关系明确,例如在某一时间的广告支出影响在该时间的销售收入,而不是相反,通常会将销售收入作为被解释变量,广告支出作为解释变量。在这种情况下,逆向回归没有意义广告支出作为解释变量,这时逆回归没有意义。•2,如果直接的因果关系不明确,而且y和x具有联合正态分布,那么直接回归和逆回归都需要做。36•回忆单一要素生产函数模型估计结果是:y=3.6+0.75x,•Sxx=28Syy=30.4Sxy=21•逆向回归模型为x=γ+θy•θhat=Sxy/Syy=21/30.4=0.69•γhat=xbar-θhatybar=8.0-9.6*0.69=1.37•X=1.37+0.69y37第七节其他形式的回归模型•有时y和x之间的关系可能不是简单的线性关系,也许时非线性的形式。下面就介绍几种非线性的形式,不难发现,下列几种形式经过变换后仍时线性形式/•1,半对数形式(semi-logform)当y增长比x慢很多时,可能的函数形式为y=α+βlogx,如果定义logx=X仍可以将模型变成我们熟悉的线性形式。反过来,如果y的增长比x快很多时,上述模型可以写成指数形式:y=Aeβx变成logy=logA+βx,也可以转换线性形式。38•2,双对数形式(double-logform)具体形式为Y=Axβ两边取对数logy=logA+βlogx仍旧可以变成线性形式。最典型地是柯布-道格拉斯函数Z=αXβYγ两边取对数可以变成双对数模型。3,分数函数Y=α+β/X,设x=1/X模型变成Y=α+βx仍是线性回归模型。4,2次函数Y=α+βX+γX2,设Z=X2,模型变成:Y=α+βX+γZ,是一个双变量模型。39例题:下表反映了日本物价上涨P和失业率U之间的关系•年份物价上涨率%(P)失业率%(U)X=1/U•19860.62.80.3571428•19870.12.80.3571428•19880.72.50.4•19892.32.30.4347826•19903.12.10.4761904•19913.32.10.4761904•19921.62.20.4545454•19931.32.50.4•19940.72.90.3448275•1995-0.13.20.312540令X=1/U,Y=P则原来的模型变成Y=α+βx+μ计算结果如下:•ΣX=4.01332ΣY=13.6•ΣXY=6.03502ΣX2=1.64083•ΣY2=31.04•Sxx=1.64083–10×0.4013322=0.030156•Sxy=6.03502–10×0.401332×1.36•=0.576905•Syy=31.04–10×1.362=12.90441•β的估计值=0.576905/0.030156=19.1•α的估计值=1.36-19.1×0.401332•=-6.32•因此Y=-6.32+19.1X•则菲利普斯曲线为•P=-6.32+19.1/U•R2=0.85542•RSS=TSS-ESS=12.904-0.576905×19.1•=1.885•σ2的估计值=1.885/8=0.235625•这样我们就可以计算估计值的标准差,进而估计其置信区间,并能进行假设检验了43例题•1,考虑1968-1987年美国经济的如下回归结果(Y=美国对进口商品的支出,X=个人可支配收入,单位10亿美元,1982年美元价格)•Y=-261.09+0.2453Xt,R2=0.9388•SE(31.327)()n=20α=0.05•t()(16.616)(1)将缺数填入;(2)如
本文标题:第二章简单回归sk1
链接地址:https://www.777doc.com/doc-3824723 .html