您好,欢迎访问三七文档
非参数检验6.1符号检验6.2Wilcoxon符号秩检验6.3WMW秩和检验6.4Kruskal-Wallis检验什么是非参数检验?•非参数检验是相对于参数检验而言的•传统的统计推断(参数统计)一般都是在给定或假设总体的分布形式或分布族,或具有足够大的样本或已知的总体的某些参数的基础上对总体的未知参数进行估计或检验。•然而在实践中,我们对所研究的总体可能知之不多,要给出或假设总体的分布十分困难,或者总体的分布并不满足假定的前提,或者不知道推断时需要的总体参数值,或者没有足够多的样本。此时,参数统计的方法不适用,必须应用非参数统计的方法。•非参数统计一般不涉及总体参数,也不依赖于对总体分布作出假定,往往仅依据数据的顺序量或等级资料等即可进行统计推断,在实际中得到了极为广泛的应用。即:•和数据本身的总体分布无关的检验称为非参数检验。–不假定总体的具体背景分布形式;–多根据数据观测值的相对大小建立检验统计量,然后找到在零假设下这些统计量的分布,看这些统计量的数据实现是否在零假设下属于小概率事件。非参数检验有什么优越性?•在总体分布未知时,如果还假定总体有诸如正态分布那样的已知分布,在进行统计推断就可能产生错误甚至灾难。•非参数检验总是比传统检验安全(更不容易拒绝原假设)。•但是在总体分布形式已知时,非参数检验不如传统方法效率高。非参数检验的应用场合•如果需要对定性数据做假设检验,则需要使用非参数方法•如果需要对中位数做检验,则需要使用非参数的方法。•如果需要对统计分布做检验,例如检验数据是否来自正态总体,检验两个总体的统计分布是否相同等,则需要用非参数方法。•当参数检验需要的假设不成立时,需要采用非参数检验方法。特别的,非正态总体、小样本的情况下,传统的t检验是不能使用的。符号检验•符号检验法是一种最简单的非参数方法,它不要求知道被检验量的分布规律,仅依据某种特定的正负号之数目多少来对某种假定作出统计推断,所以称为符号检验。•符号检验法非常直观、简便,常被用于检验总体的均值、中位数等位置参数是否为某一数值,或判断总体分布有无变化、是否相同等。•尤其在实际中,我们常常会碰到无法用数字去描述的问题,这时符号检验法就是一种简单而有效的检验方法。基本思路•例6.1今从生产线上随机抽取10件产品进行检验,测得产品的直径数据(单位;厘米)为:23,18,22,21,27,25,19,21,24,17。问:能否认为该产品的直径的中位数()是23厘米?()eM0.05•分析:如果产品直径的中位数是23厘米,就意味着样本点(本例n=10)中大于23的概率与小于23的概率应当相同。如果排除样本点等于23的情况(连续随机变量的样本点等于的概率为零,故可以将等于的样本点去掉,相应减少n),。可见,如果产品直径的中位数是23厘米的假设成立,则每一样本点都以0.5的概率小于,也以0.5的概率大于。12,,,nxxxeMeM12PPPPeMeM•这显然是一系列贝努里实验,大于的样本点个数(符号为正,记为)与小于的样本点个数(符号为负。记为)均服从均值为1/2,方差为n/4的二项分布。和可以用作检验统计量,为计算方便,一般取两者中较小的一个作检验量,记作。eMSeMSSSmin(,)KSSeM检验步骤•1、提出假设。如2、作差数。3、求。,记作;,记作00:H101010:::HHH或或idiiidx,SS0idS0idS•4、作出决策•①查表判断•根据一定的显著性水平和符号数目n()查《符号检验界域表》求得临界界域,此表是利用二项分布计算出来的。如果和落在相应的界域以外(含落在界域点上)表明和的差异很显著。拒绝;否则不能拒绝。nSSSSS0H0HS•②计算值作出判断式中•双侧检验:,拒绝;,不能拒绝•单侧检验:,拒绝;,不能拒绝0001()()(1)2kkkiiniinnniiiPKkPKiCC1min(,),min(,),2KSSkss2P0H0H0H0H2PPPP•注意:当n较大时,二项分布逼近正态分布,近似服从标准正态分布,我们可以用Z检验量进行检验。不过,由于正态分布是连续分布,所以在对离散的二项分布的近似中,要用连续性修正量:•当时取加号,反之取减号。对于单边检验,值为;而对于双边检验值为0.524nKZn2nKP()()PZzzP2()2()PZzz(,)24nnN()/42nnZK•例1.解:①②:0,-5,-1,-2,4,2,-4,-2,1,-60:23eHM1:23eHMid3S6S9n③a.查表。根据,n=9查表得临界界域为(2,7)。和均落入界域内,故不能拒绝,可以认为该产品直径的中位数是23厘米。b.计算值。。由于值,所以不能拒绝,可以认为该产品直径的中位数是23厘米。S0.05S39901(3)0.25392iiPSCP2(3)0.5078PKP0.050H0H•例6.2联合国人员在世界上66个大城市的生活花费指数(以纽约市1996年12月为100)按由小至大的次序排列如下。66757880818182838383838485858686868687878888888888898989899090919191919293939696969799100101102103103104104104105106109109110110110111113115116117118155192对均值的t检验•问题:假定这是从世界许多大城市中随机抽样而得到的样本。北京的指数为99,能否认为北京市在总体平均水平之上?•分析:由于是大样本,所以不论总体是否正态,都可以根据单个样本的t检验进行分析,检验总体的均值是否小于99。如果能够认为总体的均值小于99,则可以知道北京市在总体水平之上。SPSS对均值的t检验结果•左侧检验时p值等于0.257/2=0.1285,因此在5%的显著性水平下不能拒绝总体均值大于等于99的原假设。从而,没有证据表明北京市在总体平均水平之上。99:99:10HH然而……•此组数据的直方图如下,可以判断总体数据很可能为右偏分布。•这时中位数比均值更有代表性。•下面我们来检验能否认为总体的中位数小于99。左侧检验•用M表示总体中位数。表示大于中位数的数据个数。在这个例子中,需要检验M是否小于99。•在样本的数据中,如果原假设成立,则大于99的数据个数应该比较大。•因此,如果从总体中得到的样本的概率非常小,则可以拒绝原假设。99:99:10MHMHS样本观测值SSS检验统计量•如果M的确是总体的中位数,则每个样本点都以0.5的概率小于(或大于)M。这显然是一系列Bernoulli试验。大于M的样本点的个数与小于M的个数都服从二项分布B(n,0.5),二者都可用作检验统计量。•因此,假设x服从二项分布B(66,0.5)在这个例子中只需要计算•如果p值小于,则拒绝原假设。)(SxPpSS根据二项分布的计算结果•在这个例子中大于99的数据个数为23。•在Excel单元格中输入“=BINOMDIST(23,66,0.5,1)”,可知这一概率(p值)为0.00932863•由于p值小于,则拒绝原假设。结论:总体的中位数要小于99。在这种情况下,可以认为北京的生活指数(99)高于世界大城市的中位数根据正态分布的计算结果•本例中样本量比较大,可以使用正态分布近似计算p值。•二项分布B(n,0.5)的期望为0.5n,方差为npq=0.25n。•在这里z=-2.4618,P(z≤-2.4618)=0.0069因此在左侧检验中拒绝原假设。•由于二项分布为离散的,正态分布是连续的,因此二者计算结果有差异。软件中通过使用“连续性修正”的方法可以缩小这种差异,得到更接近的结果。)1,0(~25.05.0Nnnxz双侧检验时的p值•当零假设为真时,不应该太大或太小。如果太大或太小,则可以拒绝原假设。•p值等于•根据给定的显著性水平得出检验结论。0100::MMHMMHS}),min{(*2SSxPS右侧检验时的p值•当零假设为真时,不应该太大。如果太大,则可以拒绝原假设。•假设x服从二项分布B(n,0.5),则p值等于•根据给定的显著性水平得出检验结论。0100::MMHMMHS)(SxPS符号检验在SPSS中的实现•以例6.2为例,检验世界花费指数的中位数是否小于99,因此提出假设如下:•在SPSS17.0中,使用选项Analyze-NonparametricTests-Binomial,再把变量“生活花费指数”选入TestVariableList。然后在下面DefineDichotomy的CutPoint输入“99”,在下面TestProportion输入“0.50”,得到如下对话框。0100::MMHMMH例6.2的SPSS实现例6.2的SPSS结果二项检验类别N观察比例检验比例渐近显著性(双侧)生活花费指数组1=9943.65.50.019a组29923.35合计661.00a.基于Z近似值。例6.2的SPSS结果含义•在二项检验的结果中,小于等于99的观测值个数有43个,大于99的有23个,共66个;所观察的比例分别是0.65和0.35,检验的比例为0.5。•双侧检验的p值为0.019。•对于这里的左侧检验,检验的p值为0.019/2=0.0095,小于显著性水平0.05,因此,拒绝零假设。6.1.3应用•例6.3为了解顾客对咖啡、茶的喜好情况,在某商场随机抽取15名顾客进行调查,结果有12名顾客更喜欢茶,2名顾客更喜欢咖啡,1名顾客对两者同样爱好。问:①顾客对咖啡、茶的喜好是否有差异?()②能否认为顾客更喜欢茶?()0.050.016.1.3应用•解:①•因为,数据不支持,即拒绝,可以认为顾客对咖啡和茶的喜爱有显著差异。0:HPP1:HPP12S2S12214n2141401(2)0.00652iiPSC220.00650.0130P2P0H0H6.1.3应用②•表明数据不支持,支持,可以认为顾客更喜欢茶。12S2S14n0.00650.01P0:HPP1:HPP0H1H6.1.4成对数据比较的符号检验•成对数据可以采用t检验的方法,但需要有正态性的或者大样本的假设条件。•如果对数据的正态性没有把握,则可以采用非参数的方法,例如符号检验。•在抽取样本时有两种形式:相关的和独立的。若第一次抽样的所有样本某一属性的测量结果,不影响第二次抽样的所有样本同一属性的测量结果,则这种抽样是独立的,若第一次抽样的测量结果影响另一次抽样测量结果,则这种抽样是相关的。为了避免或者尽量减少由于其他因素影响引起的两组之间的附加差异,得到更准确地结论,研究中通常采用两个相关的样本。•相关样本的获取有两种方式:•1.让每一研究对象做自身的对照者•2.将研究对象两两配对,分别给每一对两个成员以不同的处理。在进行配对时,应让每一对在可能影响处理结果的其他因素方面尽量相似,以尽量避免和减少附加差异。一般来说,用研究对象自身作为对照者要优于配对方法,因为在配对过程中很难完全控制住其他的影响因素。两个相关样本的非参数检验方法主要有符号检验法和Wilcoxon符号秩和检验法。•利用两个相关样本进行研究,对于某些问题是很方便的。但现实中要做到很好配对并不容易。若由于配对不当或无法配对,就要使用两个独立样本的非参数检验方法:Brown-Mood检验法,Mann-Whitney-Wilcoxon检验法,Wald-Wolfowitz游程检验法,卡方检验法,Kolmogorov-Smirnov检验法等。两个独立样本可以各自从两个总体中随机抽选获得,也可以对随机抽样的一个样本诸元素随机分别实
本文标题:非参数检验
链接地址:https://www.777doc.com/doc-4592233 .html