您好,欢迎访问三七文档
第十一章多重多元回归分析普通回归分析是大家比较熟悉的一种方法,这里将借助复习初等数量统计中多元回归分析的主要内容,相应给出多重多元回归分析的主要内容(包括回归模型、回归式的求法、回归系数的检验等)。而不做复杂的数学推导,仅给出相应的结论,但从中可以看出一元回归、多元回归、多元逐步回归都是本章所要介绍的多重多元回归和双重筛选逐步回归的特例。为了突出重点,略去普通多元回归分析中相重复的内容,如偏相关系数、复相关系数等。§11.1什么是多重多元回归分析在实际问题中,经常需要同时考虑多个因变量对多个自变量的相互依赖关系,例如在工厂中要同时考察某产品的质量指标,而反映产品的质量指标往往是好几个,于是产品的质量指标可作为多个因变量,而影响产品的质量指标的因素显然更有多个可作为多个自变量,如何从数量上揭示这种相互依赖关系,又如何建立它们的回归式以及预测预报就是一个多重多元回归分析问题;在商品需求研究中,同时考察某些商品销售量与商品的价格、消费者的收入等之间的相互依赖关系;在环境科学中研究多种污染气体(CO、CO2、SO2)的浓度与污染源的排放量和气象因子(风向、风速、温度、湿度)等之间的相互依赖关系等,都属于多重多元回归分析问题,这方面的实例到处可见,不胜枚举。为了给出多重多元回归模型以及回归系数估计、假设检验等,先复习有关初等数理统计中一元回归和多元回归。一元回归数学模型:xy10为了估计回归方程的系数,给出n组观测数据:),(,),,(),,(2211nnyxyxyx,代入上式得:11101xy22102xy……nnnxy10在古典线性回归模型中,根据中心极限定理通常假定),0(~2Ni,在一般情况下,只假定模型满足:2)(,0)(iiDE(对所有i)及stCovsi,0),(。用最小二乘法求0、1的估计,为此解方程组:0010QQ其中,nanaiaayyQ1122)ˆ(为误差平方和,其中aaxy10ˆ。可得:xxxyllxy110ˆˆˆ这里niniiiixyxxyyxxl11xx)(l))((多元回归数学模型:xxy110n组观测数据:);,,,(111211yxxxp);,,,(222221yxxxp……);,,,(21nnpnnyxxx代入上式得:1111101ppxxy2221102ppxxy……nnppnnxxy110其中,n,,,21独立且niNi,,1),,0(~2用矩阵表示:npnpnppnxxxxxxyyy2110122111121111简写为XY用最小二乘法求的估计,为此,令0Q其中naaayyQ12)ˆ(为误差平方和其中appaaxxy110ˆ可得:YXXX1)(ˆ1多重多元回归的数学模型由于线性回归模型应用面是很广的,许多非线性回归问题可以通过引进新变量化线性回归。因此,下面给出多重多元线性回归模型。设有m个自变量mxxx,,,21,对应p个因变量pyyy,,,21,假定它们之间有线性关系式:11221111011mmxxxy22222112022mmxxxy……pmmpppppxxxy22110其中),,2,1;,,1,0(pjmiij是未知参数,),,1(pjj是随机误差项,它们不是相互独立的,通常假设它们服从多元正态分布即),0(~),,,(21ppN其中)(ij为未知的协差阵。由于用矩阵来研究多元线性回归较方便,因此上述数学模型写成矩阵形式如下:110111120212221011mmppmpppmyyxxyx统计问题就是从已知的m个自变量,p个因变量的n组实测数据出发,求未知常数ij的估计值ijˆ,并对误差j作出估计和推断。和一元统计分析一样,将略出误差项而得到的关系式:p,1,jˆˆˆˆ110mmjjjjxxy称为回归方程,称),,1;,,1(ˆpjmiij为回归系数,称),,1(ˆ0pjj为常数项。设有n组自变量与因变量的实测数据:),,,;,,,(1121111211pmyyyxxx),,,;,,,(2222122221pmyyyxxx……),,,;,,,(2121npnnnmnnyyyxxx将数据写成矩阵分别用X,Y表示:nmnnmmxxxxxxxxxX212222111211,npnnppyyyyyyyyyY212222111211将n组数据代入到多元回归模型中即有:npnppmpmmppnmnmmnpnppxxxxxxyyyyyy122111121112110020112211111221111111记),,,(,)1,,1,1(1002010pmpmmpp212222111211npnnpp212222111211于是多重多元线性回归模型可写成:0)1(XY1,(1)1,nmrkXm的各行向量),,1)(,,(1naapa是相互独立且同分布),0(N。(注意:组与组之间的随机误差项是相互独立的,但组内可以是不独立的,即每一行内部可以是不独立的。)2多重多元回归式的求法和一个因变量的多元回归分析一样,这里用最小二乘法求的估计,我们如此地选择ijˆ的值使误差阵各元素平方和相加达到最小,即使nipjijQ112最小为此用拉直法以及利用矩阵四块求逆公式可得回归系数的估计值如下:xyxxxyxxLLLLxy110ˆˆ其中0ˆ是相应于回归常数组成的向量,ˆ是回归系数组成的矩阵;XnIXLxx)111(YnIXLxy)111(11XnX11YnY1001I类似一元回归分析将实测值Y与回归值Yˆ之差称为残差,于是得残差阵:)ˆ()ˆ(YYYYQ残其中000ˆˆ1ˆˆ)1(ˆXXY可以证明下述统计性质:ˆˆ0是0的无偏估计量。1ˆmnQ是的无偏估计量。3回归系数向量的假设检验(在正态假定下)一元统计中多元回归系数检验是:0ˆ:0iH统计量:)1,1(~1pnFpnQWFi其中iW为偏回归平方和。对多重多元回归,同样需要考察某一部分自变量对p个因变量的影响是否显著的问题,为此考虑模型:22110210211)1(XXXX22101)1(XX其中)1()1(21XXX1)1(21mXXrk21X1为1mn阶阵,X2为2mn阶阵,mmm21;1为pm1阶阵,2为pm2阶阵。判断mmXX,,11对p个因变量作用是否显著的问题,即要检验假设0:20H检验统计量:),(~)1(2pmnpFTpmnpmn其中2122ˆˆQDT212)(XpIXDc111111)(CCCCpc)1(),1(2111XXCXCYCCCCIYQ))((1如果拒绝H0,则认为这一部分自变量对p个因变量是有作用的;如果H0不能拒绝,则认为这一部分自变量对p个因变量是不起作用的。§11.2双重筛选逐步回归分析从上面介绍的内容可以看出多重多元回归分析的计算工作量是很大的,要用手算是很困难的,一般都用计算机去完成。虽然多重多元回归问题,也可以化为多个自变量对每一个因变量逐步个进行回归去建立回归式,但这种做法会丢失多个因变量之间相关的信息,因此必须设法提取这些有关信息,双重筛选逐步回归就可以解决这个问题。1什么是双重筛选逐步回归多个自变量与多个因变量建立回归式时,不仅对自变量进行筛选,而且对因变量也同时进行筛选,所谓筛选即保留与之有密切关系的变量,剔除与之无关紧要的变量,并且依因变量和自变量的关系将因变量进行分组。例如研究自变量mxx,,1对因变量pyy,,1的回归时,如自变量的一部分仅对因变量的一部分有较密切的关系,不妨设为11,,pyy与11,,mxx有较密切的关系,而另一部分因变量是211,,ppyy与211,,mmxx有密切关系……如此等等,因此就希望将它们分组建立回归式时,此时11,,pyy与112,,ppyy一定不会有共同的变量,而对于mxx,,1与112,,mmxx可能有共同的变量,因为一个自变量ix可能对许多不同的iy甚至全部的iy都有影响。将这种方法称为双重筛选逐步回归法,由于它的理论分析较难、较繁,此处不介绍,详见张尧庭、方开泰编著《多元统计分析引论》。2基本思想首先选一个因变量,不妨记为1y,对它来筛选所有的自变量,当自变量筛选过程结束后,再转为考虑在未入选的因变量中选第二个因变量,不妨记为2y;这时已有两个因变量1y,2y入选,因此首先考虑1y,2y是否有剔除的,如果没有剔除的,则转入对1y,2y来筛选自变量,直到自变量筛选过程结束,再转入考虑因变量的筛选,重复上述步骤,直到因变量和自变更既没有剔除也没有引入时为止,这时就建立第一组回归方程。其次从原始数据中删去第一组回归方程中已入选的因变量的资料比如1p个(注意自变量的数据均不删),重复整个过程直到因变量都有了回归方程才停止。在上述计算过程中,由于对自变量和因变量都要进行筛选,因此需给出四个检验统计量。而且每次对变量(包括自变量、因变量)进行筛选都要对相应的“相关系数阵”作消去变换,因此,一开始将m+p个变量的相关系数阵R分写成三个矩阵:一个记为S1,当自变量进行筛选时,对它做消去变换;另一个记为S,当因变量筛选时,对它做消去变换;再一个是S2,不管每次对自变量还是因变量进行筛选对它都要做消去变换。3计算步骤及实例设全部自变量为mxxx,,,21,因变量pyy,,1记为pmmxx,,1,共有n次观测数据,于是原始资料矩阵为:p1m1yyx11212221111111)(xpnmnmnmnpmmmpmmmpmnxxxxxxxxxxxxX其中ijx表示第j个变量的第i次观测值nipmmmj,,1;,,1,,,1。第一步准备工作。(1)计算m个自变量,p个因变量n次观测数据的平均值ix及相关系数阵)(ijrR,即pm1,m,1,j11niijjxnxppmmpmmpmmpmpmmmmmmmpmmmmmmmpmmmrrrrrrrrrrrrrrrrR1111111111111111其中pm,1,ji,)()())((12121
本文标题:多重多元回归分析
链接地址:https://www.777doc.com/doc-4975522 .html