您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > SAS学习系列27.-秩和检验
27.秩和检验(一)参数检验与非参数检验通常情况下,对数据进行分析时,总是假定误差项服从正态分布,因为正态分布的原始出发点就是来自于误差分布,至于当样本相当大时,数据的正态近似,这是由于大样本理论所保证的。但有些资料不一定满足上述要求,或不能测量具体数值,其观察结果往往只有程度上的区别,如颜色的深浅、反应的强弱等,此时就不适用参数检验的方法,而只能用非参数统计方法来处理。这种方法对数据来自的总体不作任何假设或仅作极少的假设,因此在实用中颇有价值,适用面很广。一、统计方法分为参数统计和非参数统计参数统计——已知总体分布类型,对未知参数进行统计推断,依赖于特定分布类型,比较的是参数;非参数统计——不以特定的总体分布为前提,不对总体参数推断;比较分布或分布位置;适用范围广,可用于任何类型资料(等级资料)。二、参数检验与非参数检验的特点、优缺点、应用对比(二)符号检验和Wilcoxon符号秩检验一、单样本的符号检验符号检验,最简单的非参数检验方法,是根据正、负号的个数来假设检验。符号检验可用于:(1)样本中位数和总体中位数的比较;(2)数据的升降趋势的检验;(3)特别适用于总体分布不服从正态分布或分布不明的配对资料;(4)定性表示的当配对资料(如试验前后比较结果为颜色从深变浅、程度从强变弱,成绩从一般变优秀)。对于配对资料,符号检验的基本步骤为:首先定义成对数据指定正号或负号的规则,然后计数:正号的个数S+及负号的个数S-.注意:不能标记正负号的观察值要从资料中剔除;1.当小样本(n≤20)时,用二项分布(1)检验配对资料试验前后有无变化原假设H0:配对资料试验前后无变化(S+和S-可能性相等),正号/负号出现的概率均为p=0.5,故S+和S-均服从二项分布B(n,0.5).(2)检验试验后正号有无增加原假设H0:正号出现的概率p≤0.5.若p0.5则拒绝H0,表明正号有增加;(3)检验试验后正号有无减少原假设H0:正号出现的概率p≥0.5.若p0.5则拒绝H0,表明正号有减少。2.大样本(n20)时,用二项分布的正态近似用S表示正号或负号的个数,则S~B(n,p),期望均值为np,方差为np(1-p),当n较大时,可以近似地认为符号检验时p=0.5代入上式即可.当Sn/2时,应该修正S为S-0.5;当Sn/2时,应该修正S为S+0.5.目的是为了能将连续分布应用到近似的离散型分布。二、配对资料的Wilcoxon符号秩检验若两组配对资料近似服从正态分布,则它们差值的检验可以使用配对t检验法;若配对资料的正态分布的假设不成立,可以使用Wilcoxon符号秩检验(非参数检验)。Wilcoxon符号秩检验是对配对资料的差值采用符号秩方法来检验。基本要求是差值数据设置为最小的序列等级和两组配对资料是相关的(配成对)。在两组配对资料的差异有具体数值的情况下,符号检验只利用大于0和小于0的信息,即正号和负号的信息,而对差异大小所包含的信息却未加利用,但Wilcoxon符号秩检验方法既考虑了正、负号,又利用了差值大小,故效率较符号检验法高。基本步骤:1.假设检验(比较两个总体均值(中位数)是否有显著差异)H0:两个总体的均值(中位数)相同;H1:两个总体的均值(中位数)不相同;先求出每对数据的差值D,按其绝对值由小到大排列(去掉差值为0的数据,相同值用平均秩),并将其“排列顺序号”编为秩R.然后将R分成正和负差值的两个部分秩值R+和R-,最后求符号秩和T+=∑R+,T-=∑R-(注意:T++T-=n(n+1)/2);符号秩的平均值为n(n+1)/4.再构造Wilcoxon符号秩统计量为若H0为真,T+与T-应该有相同的值=n(n+1)/4,因此太大的S值或太小的S值都是拒绝H0的依据。在实际中为了便于计算,常取W=min(T+,T+)作为统计量,W服从Wilcoxon符号秩分布。查表在显著水平α下,关于n的双侧检验的临界值Wb,则得W值的拒绝区域为[0,Wb],接受域为[Wb,n(n+1)/4],若W统计量Wb,则拒绝H0.2.方差分析对于n20样本,当原H0为真时,统计量T=T+-T-接近于0,其方差为建立检验统计量近似于标准正态分布。由于T=T+-T-=2T+-n(n+1)/2,故可将上式中的T改写为T+的形式:标准正态分布使用显著水平α=0.05时,拒绝区域为z-1.96和z1.96,因为2.241.96,计算出z统计量的值,判断拒绝H0与否。三、SAS实现(PROCUNIVARIATE过程步)例1检验提高学生某种素质的训练是否有效。随机地选取15名学生作为试验样本,在训练开始前做了一次测验,每个学生的素质按优、良、中、及、差打分,经过三个月训练后,再做一次测试对每个学生打分(素质提高用+表示,降低用-表示,无变化用0表示)。表1训练前后的素质比较学生编号训练之前训练之后差异符号1中优+2及格良+3良中-4差中+5良良06中优+7差及格+8良优+9中差-10差中+11中优+12及格良+13中及格-14中优+15差中+为了处理,先对定性资料进行量化:用1,2,3,4,5,分布表示差、及格、中、良、优。代码:datatraining;inputbeforeafter@@;d=after-before;datalines;352443134435124531133524323513;run;procprintdata=training;title'原始数据';run;procunivariatedata=training;vard;run;运行结果及说明:注意:只能调用univariate过程,而不能调用means过程来进行符号检验。分析变量为单样本数据集training中的d变量。符号检验统计量M(Sign)=4,它是取正符号和负符号两者之间的小者作为检验统计量(?)Pr=|M|计算的概率是二项分布的两尾概率之和,因此它是双侧检验,检验正符号和负符号是否相同,结果为0.0574。在显著水平设定为0.1时,由于0.0574α=0.1,拒绝原假设。符号检验的缺点是丢失了差值d大小的信息,如果设定检验的显著水平为0.05,那么本例检验结果却由于0.05740.05,则变为不能拒绝原假设。但是,如果用考虑差值d大小的信息的Wilcoxon符号秩检验,即SgnRank,由于0.01540.05,仍然得到拒绝原假设的检验结果。例2某制造商想要比较两种不同的生产方法所花费的生产时间是否有差异。随机选取了11个工人,每一个工人都分别随机地使用两种不同的生产方法来完成一项相同的任务。任务完成时间的正差值表示生产方法1需要更多的时间,负差值表示生产方法2需要更多的时间。表2两种不同生产方法完成任务的时间(分钟)工人编号n生产方法M差值D绝对差值秩次R符号秩次RM1M2D=M1-M2|D|-+110.29.50.70.78829.69.8-0.20.22239.28.80.40.43.53.5410.610.10.50.55.55.559.910.3-0.40.43.53.5610.29.30.90.91010710.610.50.10.111810.010.000———911.210.60.60.6771010.710.20.50.55.55.51110.69.80.80.899符号秩次总和T-=5.5,T+=49.55.549.5代码:datatime;inputm1m2@@;d=m1-m2;datalines;10.29.59.69.89.28.810.610.19.910.310.29.310.610.510.010.011.210.610.710.210.69.8;run;procprintdata=time;title'原始数据';run;procunivariatedata=timenormal;vard;run;运行结果及说明:“normal”选项,对差值作正态性检验。差值D的正态性检验的结果为0.53390.05配对资料如果其差值不是具体数字,只能用符号检验。但如果差值有具体数字,而使用符号检验,相当于只利用了它的“+”、“-”,而对数字大小中所包含信息却未加利用。此时,若符合正态分布则使用配对资料的t检验;若不符合正态分布则用Wilcoxon符号秩检验。差值D的正态性检验的结果为0.53380.05,因此不能拒绝差值D具有正态性。因为制造商拒绝相信差值D具有正态性,所以采用Wilcoxon符号秩检验。Wilcoxon符号秩统计量S=22。SAS建议在n≤20时,Pr=|S|的概率由S的精确分布计算,而S的分布是尺度二项分布的卷积,所以精确结果为p值=0.0234α=0.05,拒绝原假设H0,即两种不同的生产方法所花费的生产时间是有差异。若n20时,将符号秩统计量S标准化成自由度为n-1的t统计量来计算显著水平(注意跟前文的转换成标准正态分布略有不同),原因是当n较大时,t分布渐近标准正态分布。另外,SAS系统在计算秩统计量S的方差时,用结值来修正方差。p值=0.0194α=0.05,也是拒绝原假设H0.(三)Wilcoxon秩和检验一、两样本的Wilcoxon秩和检验Wilcoxon秩和检验,用来决定两个独立样本是否来自相同的或相等的总体。如果这两个独立样本来自正态分布和具有方差齐性(相同方差),则可以采用t检验比较均值。但当这两个条件都不能确定时,常用Wilcoxon秩和检验。Wilcoxon秩和检验是基于样本数据秩和。先将两样本看成是单一样本(混合样本)然后由小到大排列观察值统一编秩。若“原假设H0:两个独立样本来自相同的总体”为真,则小的、中等的、大的秩值大约均匀分布在两个样本中。若“备择假设H1:两个独立样本来自不相同的总体”为真,则其中一个样本有更多的小秩值,这样就会得到一个较小的秩和;另一个样本将会有更多的大秩值,会得到一个较大的秩和。设两个独立样本为:第一个x样本容量为n1,第二个y样本容量为n2,在容量为n=n1+n2的混合样本中,x样本的秩和为Wx,y样本的秩和为Wy,且有定义以x样本为例,若它们在混合样本中享有最小的n1个秩,则Wx取到最小值n1(n1+1)/2;同样Wy可能取的最小值为n2(n2+1)/2。那么,Wx的最大取值等于混合样本的总秩和减去Wy的最小值,即同样,Wy也同理。所以W1和W2均为取值在0与之间的变量。当原假设H0为真,所有的xi和yi相当于从同一总体中抽得的独立随机样本,可看成一排n个球随机地指定n1个为x球另n2个为y球,共有1nnC种可能(且是等可能的)。基于这样分析,在原假设H0为真的条件下可求出W1和W2的概率分布为为样本大小为n1和n2的Mann-Whitney-Wilcoxon分布。一个具有实际价值的方法是,对于每个样本中的观察数≥8的大样本来说,我们可以采用标准正态分布Z来近似检验。由于W1的中心点为n1n2/2,故Wx中心点μ为Wx的方差σ2为若样本中存在结值,需要对方差做修正:其中,τj为第j个结值的个数(结值的存在将使方差变小)。标准化后Wx为其中分子±0.5是为了对离散变量进行连续性修正,对于Wx-μ0减0.5修正,对于Wx-μ0加0.5修正。二、PROCNPAR1WAY过程步(单因子非参数方差分析)NPAR1WAY过程,是分析变量的秩,并计算几个基于经验分布的函数和通过一个单因子分类变量的响应变量确定的秩得分的统计量。秩的得分计算有:Wilcoxon得分、中位数得分、Savage得分和VanderWaerden得分等。然后再由秩得分计算简单的线性秩统计量,由这个秩统计量可以检验一个变量的分布在不同组中是否具有相同的位置参数,或者在EDF检验下,检验这个变量分布在不同组中是否分布相同。秩得分的统计量也可以先用procrank过程计算秩得分,然后用procanova过程分析这些秩得分而得到。秩得分计算,用线性秩统计量:其中Ri为第i个观察的秩,a(Ri)为秩得分,Ci是一个指示向量(由0和1组成),它表示了第i个观察所属的类
本文标题:SAS学习系列27.-秩和检验
链接地址:https://www.777doc.com/doc-4082454 .html