您好,欢迎访问三七文档
第二章一元线性回归模型最小二乘法产生的历史最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)——达尔文的表弟所创。早年,道尔顿致力于化学和遗传学领域的研究。他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。最小二乘法的地位与作用现在回归分析法已远非道尔顿的本意已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。后来,回归分析法从其方法的数学原理——残差平方和最小(平方乃二乘也)出发,改称为最小二乘法。父亲们的身高与儿子们的身高之间关系的研究1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式下图是根据1078个家庭的调查所作的散点图(略图)yx160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定“回归”一词的由来从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。后人将此种方法普遍用于寻找变量之间的规律xyubxay516.033.84ˆ主要内容一元线性回归模型模型参数估计(最小二乘法)样本判定系数与拟合优度检验回归参数估计值的显著性检验模型整体的显著性检验一元线性回归模型预测参数估计假设检验一.一元线性回归模型的概念1.回归模型确定关系(函数关系)相关关系(随机关系)因果关系Y=f(X)相关模型回归模型)(XfY)(XfY(X的变化是Y的变化的原因)随机项μ的构成模型中省略的变量随机因素测量误差确定数学模型形式的误差2.线性回归模型模型的基本形式Y=β0+β1X1+β2X2+β3X3+………+βiXi+μi基本假设解释变量Xi是确定性变量,不是随机变量;解释变量之间互不相关;随机误差项具有0均值和同方差;随机误差项不存在序列相关关系;随机误差项与解释变量之间不相关;随机误差项服从0均值、同方差的正态分布。3.一元线形回归模型只含有一个解释变量的线形回归模型满足基本假设:1E(μi)=02Var(μi)=σ2μ3Cov(μi,μJ)=04Cov(Xi,μi)=0i=1,2,3,……,n;j=1,2,3,……,ni≠jiiiXY10同方差无序列自相关高斯-马尔柯夫假定异方差XYX10XYX10序列自相关XYX10XYX10负相关正相关协方差))]())(([),(YEYXEXEYXCovNiNjiiijYEYXEXp11))())(((XYXYXYXY协方差为正协方差为负pij是X和Y的联合概率二.一元线性回归模型的参数估计iiXY1ˆ0βiiiXY10样本回归线(函数)iiiXY1ˆββ0总体回归模型样本回归模型1.基本概念总体回归线(函数)01(|)iiEYXX(1)散点图变量Y与变量X的散点图YX0******************************YX0******************************iiXY1ββ0(2)回归线iiiXY10(3)估计量(Estimator)一个估计量又称统计量,是指一个规则、公式或方法,是用已知的样本所提供的信息去估计总体参数。统计量是样本的函数,因为抽样是随机的,估计量具有随机性对一次已经实现的抽样,估计量又是确定的。在应用中,由具体样本算出的估计量的数值称为估计值。2.最小二乘法的思路(1)为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值(n组观察值),才不至于以点概面(做到全面)。Y与X之间是否是直线关系(用协方差或相关系数判断)?若是,可用一条直线描述它们之间的关系。在Y与X的散点图上画出直线的方法很多。找出一条能够最好地描述Y与X(代表所有点)之间的直线。问题是:怎样算“最好”?最好指的是找一条直线使得所有这些点到该直线的纵向距离的和(平方和)最小。最小二乘法的思路(2)yx纵向距离横向距离距离A为实际点,B为拟合直线上与之对应的点xyyyuiiiii10ˆˆˆ纵向距离最小二乘法的思路(3)纵向距离是度量实际值与拟合值是否相符的有效手段点到直线的距离——点到直线的垂直线的长度。横向距离——点沿(平行)X轴方向到直线的距离。纵向距离——点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。实际值-拟合值=残差(剩余)最小二乘法的思路(4)纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以称为残差、拟合误差或剩余。将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。拟合直线在总体上最接近实际观测点。于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小的问题。YX0******△**△7Y9Y****Y7Y9Min2)(iiYY数学形式最小二乘法的数学原理纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。数学推证过程)6(ˆ)5(ˆˆ)4()3()2(02)1(02minmin22222222222ˆˆˆˆˆˆˆxxyxyxyxxxyxxxyxxxyuxyuxbayuxbayyyuxyyyunyxnbxbyabanbabnababbaaiiiiiibaiiiiiiiiiiiiiiiiiiiiiiiiiiiii或最小二乘估计量221)(ˆiiiiiiXXnYXYXn)ˆ(1ˆ10iiXYn最小二乘估计量的简化形式21ˆiiixyxXY10ˆˆiXnX1iYnY1XXxiiYYyii中心矩形式、离差形式统计学补充知识总体矩(1)总体k阶原点矩为(2)总体k阶中心矩为()kkkmEXxdFx()()()kkkEXEXxEXdFx统计学补充知识样本矩(1)样本k阶原点矩为(2)样本k阶中心矩为11nkkiiMXn'11()nkkiiMXXn统计学补充知识矩估计法(1)要点就是用样本矩代替总体矩来估计总体的参数!(2)在求各阶矩时,求原点矩或求中心矩都可以,当然,对每一阶而言,二者只能选其一。注意几个概念的区别误差:即随机项残差:观测值减去拟合值,是误差的估计值离差:样本观测值减去样本平均值(以后我们都用小写字母表示离差)3.回归直线的性质(数值性质)ˆˆˆˆˆiiiiiyabyuxu残差和=0平均值相等拟合值与残差不相关自变量与残差不相关注:此处的小写字母不是表示离差,而就是原值,其后4张幻灯片都是一样的意思,但以后我们常见的还是用小写字母表示离差。1.估计残差和为零(ResidualsSumtozero)由第26张幻灯片的(1)式直接得此结论无须再证明。并推出残差的平均数也等于零。000)1(02ˆˆˆˆˆˆ2uuuxyxyuxyyyuiiiiiiiiiiiiinbabaaba2.Y的真实值和拟合值有共同的均值(Theactualandfittedvaluesofyihavethesamemean)yybabayyuuyyuyyxyuxyiiiiiiiiiiiiiiˆ01ˆˆˆˆˆˆˆˆˆ:性质由3.估计残差与自变量不相关(Residualsareunrelatedwithindependentvariable)00,2000ˆ1ˆ,cov0ˆ,cov011ˆ,covˆˆˆˆˆˆˆˆˆˆˆˆ22ˆ,uxuxuxuuxuuxuxuxuxuuxxiiiiiiiiiiiiiiiiiiuxxxxxxxuxnuxuxininux)式由(4.估计残差与拟合值不相关(Residualsareunrelatedwithfittedvalueofyi)00ˆ0ˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆˆ0ˆˆˆ0ˆˆˆ1ˆ,ˆcovbaubuaubuaubauyuyuyuyuyuyuyyuyynuyxxxiii数值性质与统计性质OLS得到的数值性质是指由于运用普通最小二乘法而得以成立的那些性质,而不管数据是怎样产生的。OLS得到的统计性质是指仅在数据产生的方式满足一定的假设下才得以成立的性质。(课本P99---100共有基本的四个假设)4.最小二乘估计量的统计性质线性无偏性有效性(最小方差性)(1)线性参数估计量,是Yi的一个线性函数参数估计量是一个随机变量,采用不同的参数估计方法,会构造出不同的参数估计量参数估计值是采用样本数据计算的具体数值,不同样本会得出不同的参数估计值0β1β(2)无偏性指参数估计量的均值等于总体模型参数值,即1100ββββ)()(EE(3)有效性(最小方差性)P105指在所有线性、无偏估计量中,该参数估计量方差最小2μσβ220)(iixnXVar21)(ixVar2μσβ(,)N0200ββσ1(,)N121ββσ有效性(最小方差)OLS参数估计量的有效性指的是:在一切线性、无偏估计量中,OLS参数估计量的方差最小。所有参数估计量线性参数估计量无偏参数估计量最小二乘参数估计量高斯-马尔柯夫定理如果满足古典线性回归模型的基本假定,则在所有无偏估计量中,最小二乘估计(OLS)量具有最小方差性,即是最优线性无偏估计量(合称BLUE性质)(BestLinearUnbiasedEstimator)对于高斯-马尔柯夫定理的补充材料以下9个幻灯片的内容作为补充,有兴趣的同学可以参考,不要求掌握!1、线性:参数估计量是Yi的线性函数证:22221)(ˆiiiiiiiiiiixxYxYxxYYxxyx令2iiixxk,因0)(XXxii,故有iiiiiYkYxx21ˆiiiiiiiYwYkXnXYkYnXY)1(1ˆˆ102、无偏性:参数估计量的均值(期望)等于模型参数值。即1100ˆˆEE证:iiiiiiiiiikXkkXkYk10101)(ˆ由于02iiixxk,1)()(222222iiiiiiiiiiiiiiixxXxxxXxxxXXXxxXxXk故:iik11ˆ1111)()()ˆ(iiiiEkkEE2、无偏性:iiiiiiiiiiwXwwXwYw10100)
本文标题:一元线性回归模型
链接地址:https://www.777doc.com/doc-4228954 .html