您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 厦门大学《应用多元统计分析》第03章-多元正态分布均值向量和协差阵的检验
第三章多元正态分布均值向量和协差阵的检验第一节引言第二节均值向量的检验第三节协差阵的检验第一节引言在单一变量的统计分析中,已经给出了正态总体N(,2)的均值和方差2的各种检验。对于多变量的正态总体Np(,∑),各种实际问题同样要求对和∑进行统计推断。例如,我们要考察全国各省、自治区和直辖市的社会经济发展状况,与全国平均水平相比较有无显著性差异等,就涉及到多元正态总体均值向量的检验问题等。本章类似单一变量统计分析中的各种均值和方差的检验,相应地给出多元统计分析中的各种均值向量和协差阵的检验。其基本思想和步骤均可归纳为:第一,提出待检验的假设H0和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。在检验的过程中,关键在于对不同的检验给出不同的统计量,而有关统计量的给出大多用似然比方法得到。由于多变量问题的复杂性,本章只侧重于解释选取统计量的合理性,而不给出推导过程,最后给出几个实例。为了更好的说明检验过程中统计量的分布,本章还要介绍HotellingT2分布和Wilks分布的定义。第二节均值向量的检验一单一变量检验的回顾及HotellingT2分布二一个正态总体均值向量的检验三两个正态总体均值向量的检验四多个正态总体均值向量的检验一、单一变量检验的回顾及HotellingT2分布为了对多元正态总体均值向量作检验,首先需要给出HotellingT2分布的定义。在单一变量的检验问题中,设12,,,nXXX来自总体2(,)N的样本,我们要检验假设0010:;:HH当2已知时,用统计量0()Xzn(3.1)其中,11niiXXn为样本均值。当假设成立时,统计量z服从正态分布~(0,1)zN,从而否定域为/2||zz,/2z为(0,1)N的上/2分位点。当2未知时,用2211()1niiSXXn(3.2)作为2的估计量,用统计量:0()XtnS(3.3)来做检验。当假设成立时,统计量t服从自由度为1n的t分布,从而否定域为/2||(1)ttn,/2(1)tn为自由度为1n的t分布上的/2分位点。这里我们应该注意到,(3.3)式可以表示为22212()()()()nXtnXSXS(3.4)对于多元变量而言,可以将t分布推广为下面将要介绍的Hotelling2T分布。定义3.1设~(,)pNXμΣ,~(,)pWnSΣ且X与S相互独立,pn,则称统计量2-1TnXSX的分布为非中心HotellingT2分布,记为2~(,,)TTpn2μ。当0μ时,称2T服从(中心)Hotelling2T分布。记为(,)Tpn2。由于这一统计量的分布首先由HaroldHotelling提出来的,故称为Hotelling2T分布,值得指出的是,我国著名统计学家许宝禄先生在1938年用不同方法也导出2T分布的密度函数,因表达式很复杂,故略去。在单一变量统计分析中,若统计量)1(~ntt分布,则)1,1(~2nFt分布,即把t分布的统计量转化为F统计量来处理,在多元统计分析中2T统计量也具有类似的性质。定理3.1若~(,)pN0XΣ,~(,)pWnSΣ且X与S相互独立,令21TnXSX,则21~(,1)npTFpnpnp(3.5)在我们后面所介绍的检验问题中,经常会用到这一性质。二、一个正态总体均值向量的检验设(1)(2)(),,,nXXX是来自p维正态总体(,)pNμΣ的样本,且()11nnXX,()()1()()naaaSXXXX。(一)协差阵Σ已知时均值向量的检验00H:μμ(0μ为已知向量)10H:μμ假设0H成立,检验统计量为212000()()~()TnpXμΣXμ(3.6)给定检验水平,查2分布表使220PT,可确定出临界值2,再用样本值计算出20T,若220T,则否定0H,否则接受0H。这里要对统计量的选取做一些解释,为什么该统计量服从)(2p分布。根据二次型分布定理知道,若~(,)pN0XΣ,则12~()pXΣX。显然,210001100()()()()TnnnXμΣXμXμΣXμYΣY其中,0()~(,)pnN0YXμ,因此,21000()()TnXΣXμ2~()p。(二)协差阵Σ未知时均值向量的检验00Hμμ:(0μ为已知向量)10Hμμ:假设0H成立,检验统计量为2(1)1~(,)(1)npTFpnpnp(3.7)其中,2100(1)[()()]TnnnXμSXμ给定检验水平,查F分布表,使2(1)npPTFnp,可确定出临界值F,再用样本值计算出2T,若2(1)npTFnp,则否定0H,否则接受0H。这里需要解释的是,当Σ未知时,自然想到要用样本协差阵11nS取代替Σ,因1(1)nS是1Σ的无偏估计量,而样本离差阵()()1()()~(1,)naapaWnSXXXXΣ0()~(,)pnNXμ0Σ由定义3.1知21200(1)[()()]~(,)TnnnTpnpXμSXμ再根据Hotelling2T分布的性质,所以2(1)1~(,)(1)npTFpnpnp在处理实际问题时,单一变量的检验和多变量检验可以联合使用,多元的检验具有概括和全面考察的特点,而一元的检验容易发现各变量之间的关系和差异,能给人们提供更多的统计分析信息。三、两个正态总体均值向量的检验(一)当协差阵相等时,两个正态总体均值向量的检验设()12(,,,)aaaapXXXX,na,,2,1,为来自p维正态总体1(,)pNμΣ的容量为n的样本;()12(,,,)aaaapYYYY,ma,,2,1,为来自p维正态总体2(,)pNμΣ的容量为m的样本。两组样本相互独立,,npmp,且()11niinXX,()11miimYY。1.针对有共同已知协差阵的情形对假设012Hμμ:112Hμμ:进行检验。对此问题,假设0H成立时,所构造的检验统计量为2120()()~()nmTpnmXYΣXY(3.8)给出检验水平,查)(2p分布表使220PT,可确定出临界值2,再用样本值计算出20T,若220T,则否定0H,否则接受0H。这里,我们应该注意到,在单一变量统计中进行均值相等检验所给出的统计量为22~(0,1)XYzNnm显然222222()()()XYnmzXYnmnm212()()()~(1)nmXYXYnm此式恰为上边统计量当1p时的情况,不难看出这里给出的检验统计量是单一变量检验情况的推广。2.针对有共同的未知协差阵的情形对假设012Hμμ:112Hμμ:进行检验。对此问题,假设0H成立时,所构造的检验统计量为2(2)1~(,1)(2)nmpFTFpnmpnmp(3.9)其中,21(2)()()nmnmTnmnmnmXYSXYxySSS()()1()()nxaaaSXXXX,12(,,,)pXXXX()()1()()nyaaaSYYYY,12(,,,)pYYYY给定检验水平,查F分布表,使pFF,可确定出临界值F,再用样本值计算出F,若FF,则否定0H,否则接受0H。这里我们需要解释的是,当两个总体的协差阵未知时,自然想到用每个总体的样本协差阵11xnS和11ymS去代替,而()()1()()~(1,)nxaapaWnSXXXXΣ()()1()()~(1,)myaapaWmSYYYYΣ从而~(2,)xypWnmSSSΣ。又由于()~(,)pnmNnmXY0Σ所以2(2)1~(,1)(2)nmpTFpnmpnmp下述假设检验统计量的选取和前边统计量的选取思路是一样的,以下只提出待检验的假设,然后给出统计量及其分布,为节省篇幅,不做重复解释。(二)协差阵不等时,两个正态总体均值向量的检验设从两个总体11(,)pNμΣ和22(,)pNμΣ中,分别抽取两个样本,即()12(,,,)aaaapXXXX,na,,2,1;()12(,,,)aaaapYYYY,ma,,2,1,其容量分别为n和m,且两组样本相互独立,,npmp,10Σ,20Σ。对假设012Hμμ:112Hμμ:进行检验。1.针对mn的情形令()()()iiiZXYni,,2,1()11niinZZXY()()1()()niiiSZZZZ()()()()1()()niiiiiXYXYXYXY假设0H成立时,构造检验统计量为-1()~(,)npnFFpnppZSZ(3.10)2.针对mn的情形在此,我们不妨假设mn,令()()()()()1111nmiiiiijjnmmnmZXYYYni,,2,1YXZZniin1)(1()()1()()niiiSZZZZ()()()11()()()11()()1()()nniijijniijjnmnnmnXXYYXXYY假设0H成立时,构造检验统计量为1()~(,)npnFFpnpp-ZSZ(3.11)四、多个正态总体均值向量的检验解决多个正态总体均值向量的检验问题,实际上应用到多元方差分析的知识。多元方差分析是单因素方差分析直接的推广。为了容易理解多元方差分析方法,我们有必要先回顾单因素方差分析方法。(一)单因素方差分析的基本思想及Wilks分布设k个正态总体分别为21(,)N,,2(,)kN,从k个总体取in个独立样本如下:1(1)(1)(1)12,,,nXXX()()()12,,,kkkknXXXkH210:1ijHij:至少存在使假设0H成立时,构造检验统计量为(1)~(1,)()SSAkFFknkSSEnk(3.11)这里21()kiiiSSAnXX称为组间平方和;()211()inkijiijSSEXX称为组内平方和;()211()inkijijSSTXX称为总平方和。其中()11niijjiXXn()111inkijijXXnknnn1给定检验水平,查F分布表,使pFF,可确定出临界值F,再用样本值计算出F值,若FF,则否定0H,否则接受0H。定义3.2若~(,)pNX0Σ,则称协差阵的行列式Σ为X的广义方差。称1nS为样本广义方差。其中()()1()()naaaSXXXX。定义3.3若11~(,),pWnAΣpn1,22~(,),pWnAΣ0Σ,且1A和2A相互独立,则称112AAA为Wilks统计量,的分布称为Wilks分布,简记为),,(~21nnp,其中21nn,为自由度。这里我们需要说明的是,在实际应用中经常把统计量化为2T统计量进而化为F统计量,利用F统计量来解决多元统计分析中有关检验问题。表3.1列举常见的一些情形。表3.1与F统计量的关系p1n2nF统计量及分别任意任意1111111(,,1)~(,1)(,,1)nppnFpnpppn任意任意211111(,,2)~(2,2())(,,2)pnnpFpnpppn
本文标题:厦门大学《应用多元统计分析》第03章-多元正态分布均值向量和协差阵的检验
链接地址:https://www.777doc.com/doc-3744787 .html