您好,欢迎访问三七文档
当前位置:首页 > 金融/证券 > 金融资料 > 多元统计分析第三章课件
第三章多元正态总体的统计推断§3.1引言§3.2单个总体均值的推断§3.3单个总体均值分量间结构关系的检验§3.4两个总体均值的比较推断§3.5两个总体均值分量间结构关系的检验§3.6多个总体均值的比较检验(多元方差分析)§3.7协方差阵的检验§3.1引言在单一变量的统计分析中,已经给出了正态总体N(,2)的均值和方差2的各种检验。对于多变量的正态总体Np(,∑),各种实际问题同样要求对和∑进行统计推断。本章类似单一变量统计分析中的各种均值和方差的检验,相应地给出多元统计分析中的各种均值向量的检验。其基本思想和步骤均可归纳为:第一,提出待检验的假设H0和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入拒绝域中,以便对待判假设做出决策(拒绝或接受)。§3.2单个总体均值的推断一、单一变量检验的回顾及HotellingT2分布一、单一变量检验的回顾及HOTELLINGT2分布在单一变量的检验问题中,设12,,,nXXX来自总体2(,)N的样本,我们要检验假设0010:;:HH当2已知时,用统计量0()Xzn其中,11niiXXn为样本均值。当假设成立时,统计量z服从正态分布~(0,1)zN,从而否定域为/2||zz,/2z为(0,1)N的上/2分位点。为了对多元正态总体均值向量作检验,首先需要给HotellingT2分布的定义。当2未知时,用2211()1niiSXXn作为2的估计量,用统计量:0()XtnS来做检验。当假设成立时,统计量t服从自由度为1n的t分布,从而否定域为/2||(1)ttn,/2(1)tn为自由度为1n的t分布上的/2分位点。这里我们应该注意到,(3.3)式可以表示为22212()()()()nXtnXSXS对于多元变量而言,可以将t分布推广为下面将要介绍的Hotelling2T分布。定义设~(,)pNXμΣ,~(,)pWnSΣ且X与S相互独立,pn,则称统计量2-1TnXSX的分布为非中心HotellingT2分布,记为2~(,,)TTpn2μ。当0μ时,称2T服从(中心)Hotelling2T分布。记为(,)Tpn2。由于这一统计量的分布首先由HaroldHotelling提出来的,故称为Hotelling2T分布,值得指出的是,我国著名统计学家许宝禄先生在1938年用不同方法也导出2T分布的密度函数,因表达式很复杂,故略去。在单一变量统计分析中,若统计量)1(~ntt分布,则)1,1(~2nFt分布,即把t分布的统计量转化为F统计量来处理,在多元统计分析中2T统计量也具有类似的性质。定理若~(,)pN0XΣ,~(,)pWnSΣ且X与S相互独立,令21TnXSX,则21~(,1)npTFpnpnp在我们后面所介绍的检验问题中,经常会用到这一性质。二、均值向量的检验设X1,X2,⋯,Xn是取自总体X~Np(μ,Σ)的一个样本,这里Σ0,np,欲检验H0:μ=μ0,H1:μ≠μ01.Σ已知检验统计量为:拒绝规则为:若,则拒绝H021000TnXμΣXμ220Tp这里要对统计量的选取做一些解释,为什么该统计量服从)(2p分布。根据二次型分布定理知道,若~(,)pN0XΣ,则12~()pXΣX。显然,210001100()()()()TnnnXμΣXμXμΣXμYΣY其中,0()~(,)pnN0YXμ,因此,21000()()TnXΣXμ2~()p。2.Σ未知检验统计量为:称之为霍特林(Hotelling)T2统计量。当H0为真时,服从F(p,n−p),对给定的显著性水平α,拒绝规则为:若,则拒绝H0.其中。2100TnXμSXμ21,pnTFpnpnp21npTpn22TT这里需要解释的是,当Σ未知时,自然想到要用样本协差阵11nS取代替Σ,因1(1)nS是1Σ的无偏估计量,而样本离差阵()()1()()~(1,)naapaWnSXXXXΣ0()~(,)pnNXμ0Σ由定义知21200(1)[()()]~(,)TnnnTpnpXμSXμ再根据Hotelling2T分布的性质,所以2(1)1~(,)(1)npTFpnpnp在处理实际问题时,单一变量的检验和多变量检验可以联合使用,多元的检验具有概括和全面考察的特点,而一元的检验容易发现各变量之间的关系和差异,能给人们提供更多的统计分析信息。例1对某地区农村的6名2周岁男婴的身高、胸围、上半臂围进行测量得样本数据如表1所示。根据以往资料该地区城市2岁男婴的这三个指标的均值μ0=(90,58,16)′,现欲在多元正态性假定下检验该地区农村男婴是否与城市男婴有相同的均值。这是假设检验问题:H0:μ=μ0,H1:μ≠μ0表1某地区农村男婴的体格测量数据编号身高(cm)胸围(cm)上半臂围(cm)17860.616.527658.112.539263.214.548159.014.058160.815.568459.514.0查表得F0.01(3,3)=29.5,于是故在显著性水平α=0.01下,拒绝原假设H0,即认为农村与城市的2周岁男婴上述三个指标的均值有显著差异(p=0.002)。00000000000000000000000000011282.8.31.68.4.56.2,2.2,8.43.1721.3114.51.5.51.311.94.31714.6218.946423.1384814.62159.7937.3768.946437.37635.5936XXμSST00000167.74142.445nXμSXμ200100..1353,3147.53TF三、置信区域2212111121,,TnXμSXμnpTFpnppnnpPTFpnppnPnXμSXμTμ的置信度为1−α的置信区域为当p=1时,它是一个区间;当p=2时,它是一个椭圆,这时可将其在坐标平面上画出;当p=3时,它是一个椭球;当p>3时,它是一个超椭球;它们均以为中心。同置信区间与假设检验的关系一样,置信区域与假设检验之间也有着同样的密切关系。一般来说,μ0包含在上述置信区域内,当且仅当原假设H0:μ=μ0在显著性水平α下被接受。因此,可以通过构造的置信区域的方法来进行假设检验。12:μnXμSXμTX四、联合置信区间即以1−α的概率对一切a∈Rp成立,称它为一切线性组合{a′μ,a∈Rp}的置信度为1−α的联合置信区间(simultaneousconfidenceintervals)。对k个线性组合{ai′μ,i=1,2,⋯,k},有aXTaSanaμaXTaSan1aPaXTaSanaμaXTaSan11kiiiiiiiiPaXTaSanaμaXTaSan当k很小时,联合T2置信区间的置信度一般会明显地大于1−α,因而上述区间会显得过宽,即精确度明显偏低。这时,考虑采用庞弗伦尼(Bonferroni)联合置信区间(p177):它的置信度至少为1−α。若tα/2k(n−1)≤Tα,则邦弗伦尼区间比T2区间要窄,这时宜采用前者作为联合置信区间;反之,若tα/2k(n−1)Tα,则邦弗伦尼区间比T2区间宽,宜采用后者作为联合置信区间。当k=p时,邦弗伦尼区间要比T2区间窄。故在求μ的所有p个分量μ1,μ2,⋯,μp的联合置信区间时,应采用邦弗伦尼区间。12,,,,iiiiiiiaxTaSanaμaXTaSanik12/2/211,,,ikiiiikiiaxtnaSanaμaXtnaSanik例2为评估某职业培训中心的教学效果,随机抽取8名受训者,进行甲和乙两个项目的测试,其数据列于表2。假定X=(X1,X2)′服从二元正态分布。n=8,p=2,取1−α=0.90,F0.10(2,6)=3.46,于是,T0.10=2.841。表2两个项目的测试成绩编号12345678甲项成绩x16280668475805479乙项成绩x2707775878791618400000000000172.5112.571496.1429,7996.142913.1429.436.46.46.475XSSμ的0.90置信区域为:即0.0436×(μ1−72.5)2−0.0812×(μ1−72.5)(μ2−79)+0.0475×(μ2−79)2≤1.009这是一个椭圆区域。μ1和μ2的0.90联合T2置信区间为即61.84≤μ1≤83.16,68.80≤μ2≤89.20这两个区间分别正是椭圆在μ1轴和μ2轴上的投影。10000000000012272.5.436.46872.5,798.7379.46.475001272.52.841112.5714/872.52.841112.5714/8792.84113.1429/8792.84113.1429/8μ1和μ2的0.90邦弗伦尼联合置信区间为(t0.025(7)=2.3646)即63.63≤μ1≤81.37,70.51≤μ2≤87.49这个联合置信区间在精确度方面要好于T2联合置信区间。由该联合置信区间可得到置信度至少为0.90的矩形置信区域(见图1中的实线矩形),但其矩形面积要大于椭圆面积。001272.52.3646112.5714/872.52.3646112.5714/8792.364613.1429/8792.364613.1429/8图1置信椭圆和联合置信区间AB利用置信区域进行假设检验在例2中,如果在α=0.10下对假设H0:μ=μ0,H1:μ≠μ0进行检验,其中μ=(μ1,μ2)′,μ0=(μ01,μ02)′,则我们容易利用图1中的椭圆得出检验的结果。若被检验值μ0位于图1中的椭圆外,则拒绝;反之,则接受。图1中的虚线矩形在μ1和μ2轴上的区间范围分别是μ1和μ2的0.90置信区间。当μ0位于椭圆外实线矩形内的位置(如图中A点)时,检验结果虽拒绝H0,但如在α=0.10下分别检验H01:μ1=μ01,H11:μ1≠μ01和H02:μ2=μ02,H12:μ2≠μ02则检验结果都将接受原假设;当μ0位于椭圆内实线矩形外的位置(如图中B点)时,检验结果虽接受H0,但H01:μ1=μ01和H02:μ2=μ02都将会被拒绝。§3.3单个总体均值分量间结构关系的检验设X1,X2,⋯,Xn是取自多元正态总体Np(μ,Σ)的一个样本,Σ0,np,欲检验H0:Cμ=φ,H1:Cμ≠φ其中C为一已知的k×p矩阵,k<p,rank(C)=k,φ为已知的k维向量。根据多元正态分布的性质知CX~Nk(Cμ,CΣC′)由于111222rankrankrankrankCΣCCΣCΣCΣCk故CΣC′0。故我们可以用上一节检验假设H0:μ=μ0的方法来检验上述假设。检验统计量为当原假设H0:Cμ=φ为真时,对于给定的显著性水平α,拒绝规则为:若,则拒绝H0;其中。特别地,若欲检验
本文标题:多元统计分析第三章课件
链接地址:https://www.777doc.com/doc-3834904 .html