您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 4.1-Kruskal-Wallis-秩和检验
第四章多样本数据模型多样本的问题是统计中最常见的一类问题。主要涉及如何检验n种不同方法、决策或试验条件(称为处理)所产生的结果是否一样等问题.试验组和对照组是传统的试验研究结构,但真实世界的问题充满各种复杂性,常常需要比较多于两组的研究对象之间的差异,其中多组数据位置的比较是基本的问题.在参数统计中,对于多组数据位置的比较问题,比如检验n个样本是否来自完全相同的总体(总体的均值的相等性检验),主要工具是方差分析或F检验,不同的试验设计选择不同的方差分析模型.方差分析过程需要假定条件(组数据满足正态分布假定),F检验才有效。可有时候所采集的数据常常不能满足这些条件,或研究者不希望做这些假设,以便增加结论的普遍性时,不宜采用参数统计的方法,而必须用非参数方法.14.26%.0.05.876.22%.也就是说,只要拒绝一个检验,就可能犯第I类错误,概率为而不是当初设定的如果要比较的是组,犯第I类错误概率为因此,多样本总体均值的比较,都采用方差分析法.t多样本(多组数据)均值比较,一般不能简单地用两样本均值比较解决.333=0.052110.1426.比如要比较三种处理之间的位置差异,三种处理的两两比较共有种,假设两两处理比较的显著性水平为,三次比较的显著性水平就有像两样本比较时一样,我们不妨尝试将数据转化为秩统计量,因为秩统计量的分布与总体分布无关,可以摆脱总体分布的束缚。非参数统计中,对于同样的检验问题,检验多个总体的分布是否相同。更严密的说,当几个总体的分布相同的条件下,讨论其位置参数是否相等。本章分样本独立和相关两种情形来介绍多样本的非参数检验在样本独立的条件,我们将利用Kruskal-Wallis秩和检验、Jonkheere-Terpstra检验来处理两种(有序与否)备择假设情况.在各样本不独立时如果是完全区组试验设计,我们将利用Friedman检验、Page检验来处理两种(有序与否)备择假设情况.在数据为二元时,可考虑CochranQ检验.如果是平衡的不完全区组试验设计,我们将利用Durbin检验.注:•如果k(2)个样本是按某种或者某些条件匹配的,那么k个样本称为相关的,否则为独立的。•k个相关和独立样本的差别与两个相关和独立样本之间的差别类似。4.1Kruskal-Wallis秩和检验4.2正态记分检验4.3Jonckheere-Terpstra检验4.4区组设计数据分析回顾4.5完全区组设计:Friedman秩和检验4.6Kendall协同系数检验4.7完全区组设计:关于二元响应的Cochran检验4.8完全区组设计:Page检验4.9不完全区组设计:Durbin检验4.1Kruskal-Wallis秩和检验试验设计和方差分析的基本概念回顾:在实际中,经常需要比较多组独立数据均值之间的差异存在性问题•在试验设计中,称温度、药品、工艺和地区等影响元素为因素.•因素不同的状态称为不同的处理或水平.试验设计和方差分析的主要内容是研究不同的影响因子如何影响试验的结果.试验设计:有时影响结果的因素不止一个,这样,就要进行各种因素不同水平的组合试验和重复抽样.•试验误差若太大,则不利于比较差异,于是,一种组合里不能允许有太多的样本.•另外,还需要考虑一个组里的数据应该满足同质性,在抽取数据时,需要根据数据来源的随机性考虑如何更好地设计试验.•重复性原则、随机性原则、适宜性原则.方差分析的基本原理是将不同因素之下的试验结果分解为两方面的因素作用,即因素之间的差异和不明因素的随机误差两项.先以单因素方差分析为例,回顾参数方差分析的基本原理.,1,2,,1,2,,.ijiijiijixaikjnxijni单因素方差分析模型由于没有区组影响,因而有较简单的表达式:,其中表示第个处理的第个重复观测值,表示第个处理的观测样本量假定1.样本是从服从正态分布的总体中独立抽选的;2.总体具有相同的方差;3.数据的测量层次至少是定距尺度。,1,2,,1,2,,ijiijiixxxxxxikjn将观测值重新整理表达如下:,222.ijTAeTijAiieijixijSSSSxxSnxxSxx令表示第个处理的第个样本,有其中为总平方和,为处理平方和,为误差平方和01211,2,,::,.ikijkFxikkHHij假设有个总体,,即个处理(水平),在各总体为等方差正态分布以及观测值独立的假定下,假设检验问题为,212111.ikiiiAAAnkeeeijiijnxxkSSfSMSxMfFxnk对假设检验问题,令检验统计量为01,.FHknkF若各处理数据假定为正态分布且等方差,则在下的分布为自由度的分布0,1.nkFFHk若,则考虑拒绝零假设11AAAeeeTFkSMSMSMSnkSMSnS变异来源自由度平方和均方实际观测值值处理误差合计在正态假定下,可以将平方和以及各自的平方和与自由度综合成方差分析表:Kruskal-Wallis检验简称克氏检验。Kruskal-Wallis检验是1952年Kruskal和Wallis二人提出的.它是一个将两个独立样本Wilcoxon-Mann-Whitney检验推广到3个或更多组检验的方法.基本原理:与处理两样本位置检验的W-M-W方法类似,将多个样本混合起来求秩,如果遇到打结的情况,采用平均秩,然后再按样本组求秩和。将k组数据混合,并从小到大排列,列出等级,如有相同数据则取平均等级,如果原假设为不真,某个总体的位置参数太大,则其观测值也倾向于取较大的值,则该总体的观测值的秩和也会偏大。4.1Kruskal-Wallis秩和检验12,,...,• knnnkk今要研究个总体的分布是否相同,需要的数据是个独立的随机样本(总体),其大小为.12(),(),...,().kFxFxFxk形式上,假定个独立样本(总体)有连续分布函数•数据的测量层次至少在定序尺度上.k假定个样本的分布(数据的分布)是连续的,除位置参数不同外,分布是相似的.而且所有的观测值在样本内和样本之间是独立的.1•kiiNn样本独立地分别从各自的总体中抽取,并记.1211211122221212kkknnknkxxxxxxxxx总体总体总体重复测量完全随机设计数据形态.ijxij其中表示第个处理的第个观测值0121:()()...()():()(1,2,...,)kjHFxFxFxFxxHFxjk对所有的中至少有两个不相等建立假设1.建立假设检验0121:()()...()()(:()()1,2,...,(.kiiiHFxFxFxFxxkHFxFxikkF对所有的个总体位置相同)个总体位置不同)这里是某连续分布函数,而且这些位置参数并不全部相同如果偏重于考察位置参数,则所建立的假设是:. ,1,2,,inikk这个问题也可以写成线性模型的形式假定有个样本(总体),各样本(总体)的样本量为.那么,观测值可以写成下面的线性模型:,1,2,,1,2,,.ijiijiijxikjnxij,其中表示第个处理的第个观测值.这里,误差是独立同分布的我们要检验的是01210:...:.kHHH至少的诸等式中有一个不成立0121::,.kijHHij,或Wilcoxon为检验零假设,我们需要构造一个检验统计量,类似于前面用于两样本的秩和检验时的检验统计量.2.构造检验统计量.Wilcoxon在做秩和检验时,先混合两个样本,然后找出各个观测值在混合样本中如果差异过大,则可认为的秩,并分别按各自样本组两组数据的中心位置求和存在差异.解决多样本的问题的想法与两样本时是一样的.如果数据取自完全随机设计,先把多个样本混合起来后求秩,再按样本组求秩和.当计算所有数据的混合样本秩时,如果有相同的观测值,则和以前一样取秩的平均值.考虑到各个处理的观测数可能不同,可以比较各个处理之间的平均秩差异,从而达到比较的目的.ijijijxR记第个样本的第个观测值的秩为1,1,,.iniijjRRik对每一个样本的观测值的秩求和,得到.iiiRRn再找到它们在每组中的平均值12...(1)2(1)2.NRRNNN所有数据混合后的,秩平均为秩和为121121112222121212kkknnknkkRRRRRRRRRRRR总体总体总体重复测量秩和完全随机设计数据的秩.iR如果这些很不一样,就可以怀疑零假设.当然需要构造反映这些样本位置参数差异的,并且有精确分布或近似分布的统计量(,).AiiFMSxxRR类似于上面基于正态定理的检验统计量中的构成,把换成,21112(112,)=kijikijHHnRRNKruskalWallisMannWhitneyWilcoNNRRRNxon其中为所有观测值的秩的平均统计量:可将统计量,推广而得212112(1)(1)/212(11)kijikjjjjKruskalWalHnRRNNRnNHNNnlis也可以注:角度事实上,写计成统量iR首先分析的分布:11212,,,..,,,!!iiiikiniikNnNkNiRRRnNnnn假定有个研究对象和种处理办法,把个研究对象分配给第种处理,分配后的秩为给定后,所有可能的分法为个,这是多项分布的系数01211,2,,1,2,,.,,,HijijikPRrikjnNnnn在零假设下,所有可能的分法都是等可能的,有,,11;;2121,;12iiiiijNnNNERVarRnNCovRR故在零假设下,21(1)/212(1)kjjjjRnNHNNn意的义在于:12...12...(1)1.22kNnnnNNNNNNN1.将所有数据按从小到大的顺序合并成一个单一的样本,其大小.对于个观察值来说,平均秩是(1)/2.(1)/2. 2ijijiniRikinNRnN对于含有个观察值的第个样本来说,秩和的期望值是若以表示第个样本(总体)的实际秩和,则就表示个样本(总体)中第个样本(总体)秩和与其均值的偏差.0(1)/23.iinHkRN如果为真,所有样本数据混合排列成一个单一的随机样本,秩次应该在个样本(总体)之间均匀地分布,即各样本(总体)实际的秩和与期望秩和之间的偏差应很小.21(1)/2(1)/212)4(..1jkjjjjjKruskalWallisRnNRnNHHNNn检验定义的统计量就是建立在实际秩和与期望秩和的偏差基础之上的.它定义为,计算公式为:(1)/2iinRN如果某些与相差很远,则可以考虑零假设不成立.22122221111(1)/2111().11•iikjjjjnnkkijijijijRnNHSnSRRRNRNN严格地讲,实质上是其中,2211(1)(21)(1).16412NNNNNNNSN如果没有打结,则有21(1)/212(1)kjjjjRnNHNNnKruskalWallis检验统计量.221112123(1)(().21)1kkjijijjRHKruskalWallniRRNNNNsNn注:角度事实上是通过计算,检验统计得到的量2222121216ijRNNNN由于混合数据各秩的平方和为2221112TijijNNNSRRRRN因此混合数据各秩的总平方和为()1112ijTTVa
本文标题:4.1-Kruskal-Wallis-秩和检验
链接地址:https://www.777doc.com/doc-7858191 .html