您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > 非参数统计wilcoxon秩和检验
Wilcoxon秩和检验Wilcoxon符号秩检验是由威尔科克森(F·Wilcoxon)于1945年提出的。该方法是在成对观测数据的符号检验基础上发展起来的,比传统的单独用正负号的检验更加有效。1947年,Mann和Whitney对Wilcoxon秩和检验进行补充,得到Wilcoxon-Mann-Whitney检验,由后续的Mann-Whitney检验又继而得到Mann-Whitney-U检验。一、两样本的Wilcoxon秩和检验由Mann,Whitney和Wilcoxon三人共同设计的一种检验,有时也称为Wilcoxon秩和检验,用来决定两个独立样本是否来自相同的或相等的总体。如果这两个独立样本来自正态分布和具有相同方差时,我们可以采用t检验比较均值。但当这两个条件都不能确定时,我们常替换t检验法为Wilcoxon秩和检验。Wilcoxon秩和检验是基于样本数据秩和。先将两样本看成是单一样本(混合样本)然后由小到大排列观察值统一编秩。如果原假设两个独立样本来自相同的总体为真,那么秩将大约均匀分布在两个样本中,即小的、中等的、大的秩值应该大约均匀被分在两个样本中。如果备选假设两个独立样本来自不相同的总体为真,那么其中一个样本将会有更多的小秩值,这样就会得到一个较小的秩和;另一个样本将会有更多的大秩值,因此就会得到一个较大的秩和。设两个独立样本为:第一个x的样本容量为1n,第二个y样本容量为2n,在容量为21nnn的混合样本(第一个和第二个)中,x样本的秩和为xW,y样本的秩和为yW,且有2)1(21nnnWWyx(1)我们定义2)1(111nnWWx(2)2)1(222nnWWy(3)以x样本为例,若它们在混合样本中享有最小的1n个秩,于是2)1(11nnWx,也是xW可能取的最小值;同样yW可能取的最小值为2)1(22nn。那么,xW的最大取值等于混合样本的总秩和减去yW的最小值,即2)1(2)1(22nnnn;同样,yW的最大取值等于2)1(2)1(11nnnn。所以,(2)和(3)式中的1W和2W均为取值在0与2122112)1(2)1(2)1(nnnnnnnn的变量。当原假设为真时,所有的ix和iy相当于从同一总体中抽得的独立随机样本,ix和iy构成可分辨的排列情况,可看成一排n个球随机地指定1n个为x球另2n个为y球,共有1nnC种可能,而且它们是等可能的。基于这样分析,在原假设为真的条件下不难求出1W和2W的概率分布,显然它们的分布还是相同的,这个分布称为样本大小为1n和2n的Mann-Whitney-Wilcoxon分布。一个具有实际价值的方法是,对于每个样本中的观察数大于等于8的大样本来说,我们可以采用标准正态分布z来近似检验。由于1W的中心点为221nn,根据(28.2)式,xW中心点为2)1(2)1(22111121nnnnnnn(4)xW的方差2从数学上可推导出12)1(21212nnnn(5)如果样本中存在结,将影响到公式(28.5)中的方差,按结值调整方差的公式为)1)((12)(12)1(212132121212nnnnnnnnnnjj(6)其中j第j个结值的个数。结值的存在将使原方差变小,这是一个显然正确的事实。标准化后xW为)1,0(~)1)((12)(12)1(5.02)1(5.021213212121211NnnnnnnnnnnnnnWWzjxx(7)其中分子加0.5或减0.5是为了对离散变量进行连续性修正,对于xW大于0减0.5修正,对于xW小于0加0.5修正。例某航空公司的CEO注意到飞离亚特兰大的飞机放弃预定座位的旅客人数在增加,他特别有兴趣想知道,是否从亚特兰大起飞的飞机比从芝加哥起飞的飞机有更多的放弃预定座位的旅客。获得一个从亚特兰大起飞的9次航班和从芝加哥起飞的8次航班上放弃预定座位的旅客人数样本,见表1中的第2列和第4列所示。表1放弃预定座位的旅客人数及统一秩值航班次数亚特兰大(x组)芝加哥(y组)放弃人数统一编秩放弃人数统一编秩1115.513721591483103.5103.541812815115.51610620139272416171182215211492517秩和xW96.5yW56.5如果假定放弃预定座位旅客人数的总体是正态分布且有相等的方差,我们可以采用两样本比较的t检验。但航空公司的CEO认为这两个假设条件不能满足,因此采用非参数的Wilcoxon秩和检验。将x组与y组看成是单一样本进行编秩,见表1中的第3列和第5列所示。,最小值是8秩值为1,最大值是25秩值为17,有两个结值10和11,两个10平均分享秩值3和4为3.5,两个11平均分享秩值5和6为5.5。如果两组放弃预定座位的旅客人数是相同的,那么我们期望的两组秩和xW和yW大约是相同的;如果两组放弃预定座位的旅客人数是不相同的,那么我们期望的两组秩和xW和yW也是非常不相同的。注意到1n9,2n8,xW=96.5,yW=56.5,:0H两组放弃预定座位旅客人数的分布是相同的。标准正态分布z值的计算结果为44515.1)189)(89(12)2828)(8(912)189)(8(95.02)189(95.96z如果设定显著水平0.05,我们知道标准正态分布在0.05显著水平时,上临界值为1.645,下临界值为-1.645,由于1.4451.645,所以不能拒绝原假设。在使用Wilcoxon秩和检验时,也可以采用第二个样本的秩和yW来计算标准正态分布z值,但要注意公式中1n和2n的对换。z值的计算结果为44515.1)189)(89(12)2828)(8(912)189)(8(95.02)189(85.56z由于-1.445-1.645,所以得到是相同的结果,不能拒绝原假设。另外,要特别注意的是由于在连续型分布中随机地抽出n个样本,几乎极少可能存在有些值相等的情况,但在社会经济中有很多离散变量,很可能存在数值相同的情况,即样本中存在着“结”。我们处理“结”的方法采用分享平均秩,但当大量“结”存在时,将可能直接影响xW的方差,因此需要把(5)式中的方差修正为(6)。但在手工计算和结值不多的情况下,常使用未修正方差来简化计算,因为与修正方差的计算结果比较只存在一些小差异,大多数情况下不影响最终的推断结果。二、单因子非参数方差分析的npar1way过程单因子非参数方差分析的npar1way过程是分析变量的秩,并计算几个基于经验分布的函数(EDF)和通过一个单因子分类变量的响应变量确定的秩得分的统计量。秩的得分计算分成四种:Wilcoxon得分、中位数得分、Savage得分和VanderWaerden得分。然后再由秩得分计算简单的线性秩统计量,由这个秩统计量可以检验一个变量的分布在不同组中是否具有相同的位置参数,或者在EDF检验下,检验这个变量分布在不同组中是否分布相同。秩得分的统计量也可以先用procrank过程计算秩得分,然后用procanova过程分析这些秩得分而得到。1.四种不同的秩得分计算用以下公式定义的统计量)(1iniiRaCS(8)称为线性秩统计量。其中iR是第i个观察的秩,)(iRa是秩得分,iC是一个指示向量(由0和1组成),它表示了第i个观察所属的类,n是观察的总数。npar1way过程的四种不同的)(iRa秩得分计算为:1)Wilcoxon得分在Wilcoxon得分中)(iRa=iR(28.9)它对Logistic分布的位置移动是局部最优的。在计算两样本情况下的Wilcoxon秩和统计量时,过程对零假设下的渐进标准正态分布的z统计量进行一个连续的+0.5和-0.5校正。2)Median得分Median得分又称为中位数得分。当观察的秩大于中位点时,中位数得分为1,否则为0,即2/)1(1)(nRRaii当(28.10)2/)1(0)(nRRaii当对于双指数分布,中位数得分是局部最优。3)VanderWaerden得分VanderWaerden得分简称为VW的得分。它是对正态分布的次序统计量的期望值的近似,即)(iRa=))1/((F1-nRi(28.11)其中)(F1x函数是标准正态的累积分布函数的反函数,这个得分对正态分布是最优的。4)Savage得分Savage得分是指数分布的次序统计量的期望值。减去1使得得分以0为中心,既)(iRa=1)1/(11iRiin(28.12)Savage得分在指数分布中比较尺度的不同性或在极值分布中的位置移动上是最优的。2.npar1way过程说明procnpar1way过程一般由下列语句控制:procnpar1waydata=数据集选项;class分类变量;var变量列表;by变量列表;run;为了使用procnpar1way,必须要proc和class语句。其余语句是供选择的。1)procnpar1way语句的选项anova——对原始数据执行标准方差分析。edf——计算基于经验分布函数(EDF)的统计量,如Kolmogorov-Smirnov、Cramer-VonMeses、Kuiper统计量。missing——把class变量的缺失值看作一个有效的分类水平。median——执行一个中位数得分分析。对于两样本产生一个中位数检验,对于更多样本产生一个Brown-Mood检验。savage——执行一个Savage得分分析。该检验适用于数据服从指数分布的组间比较。vw——执行一个VanderWaerden得分分析。这是一个通过应用反正态分布累积函数得到近似的正态得分。对于两个水平情况,这是一个标准VanderWaerden检验。wilcoxon——对数据或Wilcoxon得分进行秩分布。对于两个水平,它与Wilcoxon秩和检验一样;对于任何数量的水平,这是一个Kruskal-Wallis检验。对于两样本情况,该过程使用一个连续的校正。2)class语句class语句是必需的,它指定一个且只能一个分类变量。该变量用来标识数据中的各个类。Class语句变量可以是字符型或数值型。3)var语句var语句命名要分析的响应变量或自变量。如果省略var语句,过程分析数据集中除class语句指定的数据变量外的所有数值型变量。4)by语句一个by语句能够用来得到由by变量定义的几个观察组,并用procnpar1way过程分别进行分析。当一个by语句出现时,过程希望输入的数据集已按by变量排序。三、实例分析例1的SAS程序如下:datastudy.noshows;dogroup=1to2;inputn;doi=1ton;inputx@@;output;end;end;cards;9111510181120242225813141081691721;procnpar1waydata=study.noshowswilcoxon;classgroup;varx;run;建立输入数据集noshows,数据的输入和成组t检验相同,先输入本组数据的总数,然后输入组中每个数据。分组变量为group,共有两组取值为1和2。输入变量为x,存放每组中的数据。过程步调用npar1way过程,后面用选择项wilcoxon要求进行wilcoxon秩和检验。要注意,如果两组样本是配对样本,应该使用配对t检验或wilcoxon符号检验,因为使用wilcoxon秩和方法,将损失配对信息后给出要分析的变量x。表2用npar1way过程进行Wilcoxon秩和检验的输出结果结果说明:组1和组2的秩和(SumofScores)分别为96.50和56.50。原假设(组1和NPAR1WAYPROCEDUREWilcoxonScores(RankSums)forVariableXClassifiedbyVari
本文标题:非参数统计wilcoxon秩和检验
链接地址:https://www.777doc.com/doc-4036641 .html