您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 5-2多元线性回归模型的参数估计
1/12/2020一、回归分析与相关分析二、多元线性回归模型第二节多元线性回归模型的参数估计1/12/2020相关分析:提供了现象之间相关关系的方向和相关的密切程度方面的信息,但不提供现象之间如何关联方面的信息回归分析:提供现象之间如何关联的信息原则上:回归分析是在相关分析的基础上进行的一、回归分析与相关分析1/12/202019世纪末,英国著名统计学家FrancisGalton研究孩子及他们父母的身高时发现,身材高的父母,他们的孩子也高,但这些孩子平均起来并不像他们的父母那样高;对于比较矮的父母,他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应。回归这个术语便开始传播开来。现在的回归分析已经没有原来的含义,但这种说法一直沿袭下来,重在表明这是研究数值变量之间关系的方法。回归的来历:1/12/2020123(,,,,)pyfxxxxL“因变量”或“被解释变量”(dependentvariable)“解释变量”或“自变量”(independentvariables)随机变量回归的方法:建立回归模型用一个恰当的代数式来表达变量与随机变量的依存关系:ixy1/12/2020一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归回归模型的类型:1/12/2020二、多元线性回归模型解释变量xi是确定性变量,不是随机变量;解释变量之间互不相关,即无多重共线性。随机误差项具有0均值和同方差01122kkybbxbxbxL1.模型的假设特殊的:随机误差项服从0均值、同方差的正态分布1/12/20202.多元模型的解析表达式0iiiiExExE其中随机误差项与解释变量之间不相关,2=0=iii是独立同分布,即i,i,d,而且E,,D(一个常数,方差的齐次性)01122120122(,,,,)1,2,,kkiiiikiiikikiybbxbxbxnyxxxinybbxbxbx个样本观测值得:LLLL1011121211201212222201122kkkknnnknknybbxbxbxybbxbxbxybbxbxbxLLLLLLLLL(1,2)0iijinE互不相关,即L行坐标——表示第几次观察列坐标——表示第几个自变量解释变量xi是确定性变量,不是随机变量;解释变量之间互不相关,即无多重共线性。1/12/2020线性回归模型”中的“线性”一词在这里有两重含义:一是被解释变量y与解释变量x之间为线性关系,即解释变量x仅以一次方的形式出现在模型之中。用数学语言表示为:jjyx220jyx二是被解释变量y与参数之间为线性关系,即参数仅以一次方的形式出现在模型之中。用数学语言表示为:01y2200yjjyx2210y1/12/20200111121112122222212111kknnnknnkbyxxxbyxxxbxxxybLLMMMMMMML3.多元模型的矩阵表达式YXB1111212122221201122111kknnnknnkYXByxxxyxxxxxxybbbbLLMMMMMLMM1/12/2020三.多元线性回归模型的参数估计(OLS)参数值估计参数估计量的性质偏回归系数的含义正规方程样本容量问题1/12/20201.参数值估计(最小二乘估计----OLS)01221121ˆˆˆˆ1iiiknniiiniQyyybbbiikexxL0120ˆ0ˆ0ˆ............0ˆkQbQbQbQb1.剩余平方和:2.最小二乘估计原理:剩余平方和达到最小值1/12/20203.得到下列方程组求参数估计值的实质是求一个k+1元方程组10112220i122111201122ˆˆˆˆˆˆˆˆˆˆˆˆiikiikikiiiikikiiiikiikiikkikinbbxbxbxybxbxbxxbxxxybxbxxbxxbxxyLLLLL1/12/20202=11ˆTTTYeYXenYknk4.剩余平方和表示成矩阵形式2ˆˆiYXBYXBD2211ˆˆˆˆˆ()()iinniiiQeYYYXByyeeYXBYXBeˆˆ()()ˆˆˆˆˆˆ()ˆˆˆ2QYBXYXBYYYXBBXYBXXBYXBBXYYYBXYBXXB为什么?1ˆˆ00ˆQXYXXBBXXXYB1/12/20207.最小二乘估计量的性质(1)线性(估计量都是被解释变量观测值的线性组合)1ˆXXXY2ˆˆ()()11ˆeeYXYXnknk=1TTTYYXkYn()1TnYIHYnk1/12/2020(2)无偏性(估计量的数学期望=被估计的真值)111ˆ()[][]EEXXXYEXXXXXXX1()IXXXX11'ˆˆ()()()()YXYXIXXXXIXXXX1'()IXXXX111ˆ()()()eYXYXXXXYIXXXXYIXXXXX1/12/202011'''[()]()()EIXXXXEEXXXX1222()(1)ntrXXXXnk22ˆˆ()()[][]11ˆeeYXYXEEnknkE(3)有效性(估计量的方差是所有线性无偏估计中最小的)2,iijijiijEaE1/12/20202'1(4)~(,()),1,2,...,(),XXj+1j+1jjjjjjjjNVarjkVarcc在古典假定下,其中,是()中对角线上第行第列元素。2(0,)iN1111ˆBXXXYXXXXXXXXXX因为:1111111(1)(1)2ˆˆˆˆˆ()[(()(())]ˆˆ[()()]'[((]))(()())()(())()()kkCovEEBEEEXXXXXXXXXXEXXXEXXXXXXdiagXX这一性质表明系数向量的各个分量间一般也是相关的.1/12/20202(5).(),cov()()()EeOediagIHˆˆeYYYXB1()IXXXXEeO1111111'''2()[(()(())]'[()()]'()()()'()()()()()CoveEeEeeEeEIXXXXIXXXXIXXXXEIXXXXEIXXXXIXXXXdiagIXXXX1HXXXX其中这一性质表明残差向量的各个分量间一般也是相关的.1/12/2020注解:k与k+1凡是按解释变量的个数为k的,那么共有k+1个参数要估计。而按参数个数为k的,则实际有k-1个解释变量。总之两者相差1而已!要小心所用的k是什么意思!所以如果本来是用解释变量个数的k表示的要转换成参数个数的k则用k-1代换原来的k就可以了!1/12/20206.偏回归系数的意义偏回归系数的含义是,在其他解释变量保持不变的条件下,该变量变化一个单位,被解释变量将平均发生偏回归系数大小的变动多元回归模型中的回归系数称为偏回归系数1/12/20207.正规方程由最小二乘法得到的用以估计回归系数的线性方程组,称为正规方程10112220i122111201122ˆˆˆˆˆˆˆˆˆˆˆˆiikiikikiiiikikiiiikiikiikkikinxxxyxxxxxxxyxxxxxxxyLLLLYXBXXˆ1/12/2020正规方程的结构ˆ(k1)x1回归系数矩阵()1()XX高斯乘数矩阵,设计矩阵的逆ˆnx1e残差向量()ˆ——n?x1y被解释变量的拟合(预测)向量Y——被解释变量观测值nx1X——解释变量观测值(含虚拟变量nx(k+1))X`X——设计矩阵(实对称(k+1)x(k+1)矩阵)X`Y——正规方程右端(k+1)x11/12/20208.最小二乘估计(OLS)下回归线的性质12323011ˆˆ...iiiikkyxxxx()回归线过样本均值01122ˆˆˆˆiikikinxxxy由正规方程的第一个式子:得证(2)iiYY估计值的均值等于实际观测值的均值2301123ˆˆˆ...kiiiiikyxxxx1/12/20201ˆˆ()eYYYXBIXXXX5iiXe()解释变量与残差不相关(3)0ie剩余项(残差)的均值为4iiYe()应变量估计值与残差不相关;YXBee为扰动,为残差,可以用来估计扰动。1ˆ(,)((),)CoveCovIHXXX11''[(]()[(]))IXXXEXXXX0ˆˆ(,)((),)CoveyCovIHX01/12/20209.多元回归模型参数估计中的样本容量问题样本是一个重要的实际问题,模型依赖于实际样本。获取样本需要成本,企图通过样本容量的确定减轻收集数据的困难。最小样本容量:满足基本要求的样本容量1/12/2020最小样本容量n≥k+11()||01XXXXXXk存在为满秩矩阵YXXXB1)(ˆ()min((),())RABRARB()1,1RXknk所以,因此1/12/2020满足基本要求的样本容量一般经验认为:n≥30或者n≥3(k+1)才能满足模型估计的基本要求。n≥3(k+1)时,t分布才稳定,检验才较为有效1/12/20201/12/20201213251,91168TTXXXY显然:TTTTeeYYXY23319281.91133ˆTTYYeenk1/12/20201/12/20201212()TnTntttttFftffftttt为向量时,一、为标量函数时12()()TTnftffffttxxxt法则:1212121221'11()()()()()()()()()()()()ftFtftftftFtftftftftttttttatcftftcattt求导法则:===='2tAtAAtt若是对称矩阵1/1
本文标题:5-2多元线性回归模型的参数估计
链接地址:https://www.777doc.com/doc-2927039 .html