您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 第四章 多元线性回归分析
1第四章多元线性回归分析第一节多元线性回归模型第二节最小二乘参数估计第三节回归拟合度评价和决定系数第四节统计推断和预测2第一节多元线性回归模型一、模型的建立二、多元线性回归模型的向量、矩阵表示法三、模型的假设3一、模型的建立模型形式例KKXXY1102KpppiiipiiSSZXAYeXAY11011lnlnln4二、多元线性回归模型的向量、矩阵表示法nKnKnnKKXXYXXY1101111101nYYY1niiiXXX111lK0n1KnnKKXXXXXXlX1111111,,,XXXXYKK221105三、模型的假设变量和之间存在多元线性随机函数关系对任意都成立与无关当时,解释变量都是确定性的而非随机变量,而且解释变量之间不存在线性关系服从正态分布YKXX,1KKXXY1100iEii2iVarji0jiEi6第二节最小二乘参数估计一、最小二乘法和正规方程组二、最小二乘估计的向量、矩阵形式7一、最小二乘法和正规方程组样本回归方程回归残差平方和当对的一阶偏导数都等于0,得到正规方程组那么KKXbXbbY110ˆiiKiKiiiXbXbbYeV21102Kbbb,,10V0)]([20)]([20)]([21101101110KiKiiKiKiKiiiKiKiiXbXbbYXXbXbbYXXbXbbY80001iKiiiieXeXe0001112121112111eXeeeXXXXXXeXeXenKnKKniKiiii9二、最小二乘估计的向量、矩阵形式向量表示回归方程的向量表示回归残差向量残差平方和Kbbb10BnYYˆˆˆ1Ynee1eXBYˆXBYYYeˆXBXBXBYYXBYYXBYXBYeeiieV210XBXYXeXeXXBXYXeXBY0YXXXB1第一种方法求B11第二种方法求B当对的一阶偏导数都等于0VKbbb,,100220XBXYXBKbVbVVYXXBXYXXXB112对于三变量线性回归模型2211022110XbXbbYXXY2212221212221122110)())(())(())((iiiiiiiiiiiiiiiiiixxxxxxxyxxybXbXbYb22122212112122)())(())(())((iiiiiiiiiiiiiiiiiixxxxxxxyxxyb13最小二乘估计的性质一、线性性二、无偏性三、最小二乘估计量的方差和最小方差性14一、线性性各个参数的最小二乘估计量YXXXB1XXX1因为是非随机取固定值的矩阵,所以B是Y的线性函数15二、无偏性证明:βεXXXβεXXXβεXXβXXXεXβXXXYXXXB11111EEEEEEE16三、最小二乘估计量的方差和最小方差性最小二乘估计量的方差21121111111XXXXXIσXXXXXXεXXXεXXXεXXXβεXβXXXYXXXBVarVarVarVarVarVar17三、最小二乘估计量的方差和最小方差性最小方差性:证明00BBVarVarAYB0IAXβAXβεAAXβAεAXβεXβAAYBEEEEE020AAAεAAεAεβεXβABVarVarVarVarVar18三、最小二乘估计量的方差和最小方差性因为所以0111111111XXAAXXXXXXXXAXAXXXAAXXXAXXXAXXXAXXXA0212120XXAAXXAABBVarVar19对于三变量线性回归模型方差估计222122212121212222210])(21[)(iiiiiiiiiiiiiixxxxxxXXxXxXnbVar22212221221)()(iiiiiiiiixxxxxbVar22212221212)()(iiiiiiiiixxxxxbVar)()(00bVarbse)()(11bVarbse)()(22bVarbse20回归残差和误差方差的估计多元线性回归分析的残差序列向量表示PεεXXXXIεXβXXXXIYXXXXIYXXXXYXBYYYe1111ˆ1neeKiKiiiiiXbXbbYYYe110ˆ21回归残差和误差方差的估计残差平方和的数学期望误差项方差的无偏估计:残差的标准差1212222222KntrntrntrtrtrtrtrVartrVartrVartrEtrEeEKiiIXXXXXXXXIXXXXIPPPεPPεeeeee111122KneSii12KneSii22误差方差估计对于三变量回归模型,误差方差的估计:322neSii对于有K个解释变量的多元回归模型即(K+1)变量回归模型误差方差的估计:122KneSii23样本容量问题⒈最小样本容量所谓“最小样本容量”,即从最小二乘原理和最大似然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。样本最小容量必须不少于模型中解释变量的数目(包括常数项),即nk+1因为,无多重共线性要求:秩(X)=k+1242、满足基本要求的样本容量从统计检验的角度:n30时,Z检验才能应用;n-k8时,t分布较为稳定一般经验认为:当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。模型的良好性质只有在大样本下才能得到理论上的证明25第三节回归拟合度评价和决定系数两变量回归决定系数的公式iiiiYYeR2221多重可决系数:在多元回归模型中,由各个解释变量联合解释了的Y的离差,在Y的总离差中占的比重。KKXbXbbY110ˆ26多重可决系数可以表示为:222221)()ˆ(iiiiyeTSSRSSTSSYYYYTSSESSR222112iikikiiiiyyxbyxbyxbR可以证明多重可决系数是模型中解释变量个数的不减函数,这给对比不同模型的多重可决系数带来缺陷,所以需要修正。27调整的可决系数思想:可决系数只涉及到离差,没有考虑自由度。如果用自由度去校正所计算的离差,可纠正解释变量个数不同引起的对比困难。调整的决定系数:iiiiYYeKnnRKnnR2222111111128总离差TSS=22)(iiyYY自由度为n-1回归平方和ESS=2)ˆ(YYi自由度为k残差平方和RSS=22)ˆ(iiieYY自由度为n-k-1所以调整的可决系数为:iiiiiiYYeKnnnyKneR22222111)1/()1/(129第四节统计推断和预测一、参数估计量的分布和标准化二、统计推断和检验三、预测30一、参数估计量的分布和标准化参数估计量服从以下的正态分布:或表示为转化为标准正态分布的统计量11,12,~kkkkNbXX12,~XXNB1,0~11,12NbZkkkkkXX31二、统计推断和检验(一)单个参数的显著性和置信区间(二)参数的显著性检验(三)回归显著性检验32(一)单个参数的显著性和置信区间给定置信度要求,下面的不等式应该成立:显著性检验:令为0,根据t统计量水平进行判断。因此参数置信度为的置信区间(或称区间估计)为:k1211,12tbtkkkkkXX11,12211,122kkkkkkkStbStbXXXXk33(二)模型总体显著性检验多元回归模型每个参数的显著性与模型总体的显著性并不一定一致,也就是全体解释变量总体对被解释变量是否存在明显影响的检验,称为回归显著性检验。回归显著性检验的基本方法,是检验模型常数项以外所有参数同时为0的假设。原假设:0:210KH34回归显著性检验方法对方程总体显著性检验需要在方差分析的基础上进行F检验。1、方差分析在讨论可决系数时已经分析了总离差TSS的分解及自由度:TSS=ESS+RSSY的样本方差为:总离差/自由度即1)(1ˆ22nYYnTSSiYi显然,Y的方差也可以分解为两部分,可用方差分析表分解35方差分析表离差来源平方和自由度方差归于回归模型KESS/K归于残差n–K-1RSS/(n-K-1)总离差n-1TSS/(n-1)22)(YYyTSSii22)ˆ(ˆYYyESSii22)ˆ(iiiYYeRSS36F检验原假设0:210KH备选假设:),2,1(:1KiHi不全为0建立F统计量(可以证明):)1,(~)1/(/KnKFKnRSSKESSF给定显著性水平,查F分布表中自由度为K和n-K-1的临界值,并通过样本观测值计算F值)1,(KnKF37F检验如果计算的F值大于F的临界值,(小概率),则拒绝原假设,说明回归模型有显著意义,即所有的解释变量联合起来对Y有显著影响。如果计算的F值小于F的临界值,则接受原假设,说明回归模型没有显著意义,即所有解释变量联合起来对Y没有显著影响。)1,(KnKF)1,(KnKF38可决系数的显著性检验由方差分析可以看出,F检验与可决系数有密切联系,二者都建立在对应变量离差分解的基础上。F统计量的值也可通过可决系数计算:)1/()1(/22KnRKRF结论:对方程联合显著性检验的F检验,实际上也是对的显著性检验。2R39四、预测点预测区间预测t统计量KKXbXbbY110ˆBX2*'2*'121XXXXXXXXBβXBβX1VarVarVareVar)1(~)1(ˆ*'2**KntSYY
本文标题:第四章 多元线性回归分析
链接地址:https://www.777doc.com/doc-3783481 .html