您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 多独立样本Kruskal-Wallis检验的原理及其实证分析
多独立样本Kruskal-Wallis检验的原理及其实证分析张林泉(广东女子职业技术学院信息资源中心,广东广州511450)摘要:阐述了多独立样本Kruskal-Wallis检验的基本思想和如何构造K-W统计量,运用多独立样本Kruskal-Wallis检验方法进行了实例分析,并进行H检验的事后比较,给出应用Mathematica和SPSS做出的相关图形。关键词:Kruskal-Wallis检验;K-W统计量;Mathematica中图分类号:O212.7MR(2000)SubjectClassification:00A69文献标识码:A文章编号:1672-0687(2014)01-0014-03非参数检验在总体分布未知时有很大的优越性。这时如果利用传统的假定分布已知的检验,就会产生错误甚至灾难。非参数检验总是比传统检验安全。但是在总体分布形式已知时,非参数检验就不如传统方法效率高。这是因为非参数方法利用的信息要少些。往往在传统方法可以拒绝零假设的情况,非参数检验无法拒绝。但非参数统计在总体未知时效率要比传统方法高,有时要高很多。是否用非参数统计方法,要根据对总体分布的了解程度来确定[1]。笔者就Kruskal-Wallis检验方法及其在经济研究中的应用进行分析,以期对经济分析领域的实证研究提供借鉴。1多独立样本Kruskal-Wallis检验的基本思想多独立样本Kruskal-Wallis检验(又称H检验)的实质上是两独立样本时的Mann-WhitneyU检验在多个独立样本下的推广,用于检验多个总体的分布是否存在显著差异。其原假设是:多个独立样本来自的多个总体的分布无显著差异。多独立样本Kruskal-Wallis检验的基本思想是:首先,将多组样本数混合并按升序排序,求出各变量值的秩;然后,考察各组秩的均值是否存在显著差异。如果各组秩的均值不存在显著差异,则认为多组数据充分混合,数值相差不大,可以认为多个总体的分布无显著差异;反之,如果各组秩的均值存在显著差异,则是多组数据无法混合,有些组的数值普遍偏大,有些组的数值普遍偏小,可认为多个总体的分布存在显著差异,至少有一个样本不同于其他样本。为研究各组的秩差异,可借鉴方差分析的方法。方差分析认为,各样本组秩的总变差一方面源于各样本组之间的差异(组间差),另一方面源于各样本组内的抽样误差(组内差)。如果各样本组秩的总变差的大部分可由组间差解释,则表明各样本组的总体分布存在显著差异;反之,如果各样本组秩的总变差的大部分不能由组间差解释,则表明各样本组的总体分布没有显著差异[2]。由上可以得出多独立样本非参数检验的目的(由独立样本数据推断多个总体的分布是否存在显著差异),基本假设(H0:多个总体分布无显著差异),数据要求(样本数据和分组标志)。2构造K-W统计量基于以上思路可以构造K-W统计量,即———————————————————眼收稿日期演2013-03-14眼基金项目演广东省教育科学“十二五”规划项目(2012JK078);广东女子职业技术学院项目(ZXB201206)眼作者简介演张林泉(1965-),男,广东化州人,副研究员,硕士,研究方向:应用统计分析,数量经济学。第31卷第1期苏州科技学院学报(自然科学版)Vol.31No.12014年3月JournalofSuzhouUniversityofScienceandTechnology(NaturalScience)Mar.2014第1期 K-W=秩的组间平方和秩总平方和的平均(1)需要检验的原假设为各组之间不存在差异,或者说各组的样本来自的总体具有相同的中心或均值或中位数。在原假设为真时,各组样本的秩平均应该与全体样本的秩平均1+2+…+nn=n+12比较接近。所以组间平方和为组间平方和=ki=1移niRini-n+12移移2(2)恰好是刻画这种接近程度的一个统计量,除以全体样本秩方差的平均,可以消除量纲的影响。样本方差的自由度为n-1。所以秩总平方和的平均=1n-1ki=1移nij=1移Rij-n+12移移2=1n-1ni=1移i-n+12移移2=1n-1ni=1移i2-n(n+1)24移移=1n-1n(n+1)(2n+1)6-n(n+1)24移移=n(n+1)12(3)因此,Kruskal-Wallis秩和统计量K-W为K-W=秩的组间平方和秩总平方和的平均=12n(n+1)ki=1移niRini-n+12移移2=12n(n+1)ki=1移Ri2ni-3(n+1)(4)其中k为样本组数,n是总样本量,ni是第i组的样本量;Ri是第i组样本中的秩总和,Rij是第i组样本中的第j个观察值的秩值。如果样本中存在结值,需要调整公式(4)中的K-W统计量,校正系数C为C=1-移(子j3-子j)n3-n(5)其中子j第j个结值的个数。调整后的KWc统计量为KWc=KW/C(6)如果每组样本中的观察数目至少有5个,那么样本统计量KWc非常接近自由度为k-1的卡方分布。因此,用卡方分布来决定KWc统计量的检验[2-3]。3H检验后比较若检验结果拒绝无效假设,认为各总体的分布位置不全相同,可进一步两两比较。H检验后的两两比较公式驻R(crit.)=t(n-k,琢/2)·n(n+1)(n-1-H)12(n-K)1ni+1nj移移姨(7)其中,驻R(crit.)等于第i组与第j组秩均值差的临界值。ni是第i组的样本量,nj是第j组的样本量[4-5]。4应用实例希望对A、B、C、D四个城市的周岁儿童身高进行比较分析,采用独立抽样的方式获得四组独立样本,数据来源见文献6。把K个样本的观察的值混合评秩。首先,必须将来自四个城市的20名儿童统一按身高编排秩,见表1中的第3、5、7、9列所示。表1来自四个不同城市儿童身高及统一秩值张林泉:多独立样本Kruskal-Wallis检验的原理及其实证分析152014年苏州科技学院学报(自然科学版)75.0072.50DCBA70.0077.50表2H检验后比较 字0.952(3)=0.352,字0.052(3)=7.815城市标志周岁儿童身高/cm8-0.1260.10.20.34GrandMedian=74.0080.00计算每个样本的秩总和。n1=5,n2=5,n3=5,n4=5,n=20,可得R1=72,R2=41,R3=79,R4=18,k=4,H0:四个总体的身高分布是相同的。计算K-W检验统计量。用(4)式计算K-W统计量为K-W=1220(21)(72)25+(41)25+(79)25+(18)25 -3(20+1)=13.74用(5)式计算校正系数C,从表1可见,身高相等秩值的个数分别为71cm3个,72cm3个,74cm2个,75cm2个,76cm2个,78cm3个。所以C=1-(33-3+33-3+23-2+23-2++23-2+33-3)/(203-20)=0.988722调整后的KWc=KW/C=13.74/0.988722=13.89962。检验结论。查表可知道,自由度为k-1=3的卡方分布,在琢=0.05显著水平下,分布的右尾临界值为字0.052(3)=7.815(见图1),由于13.899627.8145,所以拒绝原假设。认为四个城市儿童身高的总体分布存在显著差异。因此,秩和最低的D组至少与秩和最高的C组是不同的。由图2可以看出B组、D组的中位数低于人员总汇的中位数;A组、C组的中位数高于人员总汇的中位数。图1自由度为3卡方分布图图2四个城市儿童身高中位数对比盒形图Kruskal-Wallis秩和检验给出的结果只能表明各样本总体上是否存在差异,当总体上检验表明存在差异时,具体是哪几个组间存在差异却不能给出,这种情况下就需要进一步的两两比较[7]。由(7)式得到驻R(crit.)=2.1199·[20(20+1)(20-1-13.9)]/[12(20-4)]×(1/5+1/5)姨=4.47825结语文章阐述了多独立样本Kruskal-Wallis检验的基本思想和如何构造KW统计量,运用多独立样本Kruskal-Wallis检验分析了四个城市的周岁而儿童身高的差异性,研究发现:四个城市的周岁儿童身高存在显著差异。H检验后比较(见表2),除了A、C没有显著差异外,其余两城市比较均显著差异。并给出应用Mathematica[8]和SPSS做出的相关图形。参考文献:[1]吴喜之.统计学:从数据到结论[M].3版.北京:中国统计出版社,2006:35,179-193.[2]李金昌,苏为华.统计学[M].3版.北京:机械工业出版社,2012:336-340.[3]RonLarson,BestyFarber.基础统计学[M].4版.北京:中国人民大学出版社,2010:397-400.[4]ConoverWJ.PracticalNonparametricStatistics[M].2thed.NewYork:JohnWiley&Sons,Inc,1980.[5]ConoverWJ.PracticalNonparametricStatistics[M].3thed.NewYork:JohnWiley&Sons,Inc,1999.[6]薛微.统计分析与SPSS的应用[M].3版.北京:中国人民大学出版社,2011:182-217.[7]何晓群.多元统计分析[M].3版.北京:中国人民大学出版社,2012.[8]StephenWolfram.TheMathematicaBook[M].5thed.Wolfram:WolframMedia,2003.(下转第38页)162014年苏州科技学院学报(自然科学版)HosoyaindexofQuadrangularchainsTIANWenwen,TIANShuangliang(SchoolofMathematicsandComputerScience,NorthwestUniversityforNationalities,Lanzhou730030,China)Abstract:Quadrangularchainisaconnectedgraphconsistingofseveralunitsquaresequences,ofwhichanytwoadjacentsquareshaveonlyonecutedge.ThispaperpresentstheHosoyaindexanditscomputationalformulaofQuadrangularchainsmadeupbynunitsquaresequencesundertwonon-isomorphicconnectedpositions.Keywords:Quadrangularchains;Hosoyaindex;Fibonaccinumber责任编辑:谢金春(上接第16页)PrinciplesofKruskal-WallistestanditsempiricalanalysisZHANGLinquan(CenterofInformationResource,GuangdongWomen’sPolytechnicCollege,Guangzhou511450,China)Abstract:AfterdiscussingthebasicprinciplesofKruskal-WallistestandtheconstructionofK-Wstatistic,thispaperappliesKruska
本文标题:多独立样本Kruskal-Wallis检验的原理及其实证分析
链接地址:https://www.777doc.com/doc-1718794 .html