您好,欢迎访问三七文档
一、参数统计与非参数统计的概念从总体中随机抽取一定含量的样本,用样本指标估计(推断)总体指标,大体上有两种方法。一是参数统计,另一种是非参数统计。1、参数统计指在总体分布类型已知的条件下,对其未知参数进行检验的方法。要求独立、正态(方差齐),如t检验、F检验均属于参数统计。2、非参数统计主要采用符号或等级排列(秩排列)来代替数据本身的分析方法。它适用于任何分布类型资料的统计分析。秩和检验就是一种非参数检验方法。适用条件参数统计:a.样本所在总体呈正态分布b.各总体方差要齐c.各个样本是相互独立的随机样本非参数统计:a.总体分布为偏态或分布未知的计量资料;b.等级资料;c.个别数据偏大或小,一端或两端是不确定数值的资料(必选);d.各组离散程度相差悬殊,即各总体方差不齐。优点参数统计:检验效能高(发现差别的能力,即把握度)。非参数统计:a.适用于任何分布的资料b.不受总体方差一致的限制c.可用于等级资料的统计分析d.有些问题本身没有适当的参数检验方法,而非参数检验则恰能处理缺点参数统计:易受使用条件的限制非参数统计:a.由于它没有充分利用原始数据中所提供的信息,故检验效能低b.很多非参数统计检验方法都采用一些近似估计作出推断结论。因此,其结果有一定的近似性。参数检验与非参数检验比较参数检验非参数检验资料服从正态分布1、对资料没有特殊要求,总体为偏态、总体分布未知的计量资料2、等级资料3、有过大/小值的数据,或数据某一端没有具体值4、总体方差不齐检验效率高检验效率低,容易犯第二类错误,原因信息丧失或信息利用不足。秩和检验第一节配对资料符号秩和检验第二节两样本比较的秩和检验第三节多个样本比较的秩和检验秩次:观察值由小到大排列后得到的秩序号,当几个数据大小相同时,取平均秩次作为其秩次。秩和:用秩次代替原始数据求和得到。秩和检验:用秩和进行假设检验的方法。一、配对资料秩和检验(Wilcoxon符号秩和检验法)当配对设计计量资料不具备参数检验的适用条件,可采用符号秩和检验法。它是将配对样本差值的中位数与0作比较例:某研究者欲研究保健食品对小鼠抗疲劳作用,将同种属的小鼠按性别和年龄相同、体重相近配成对子,共10对,并将每对中的两只小鼠随机分到保健食品两个不同的剂量组,过一定时期将小鼠杀死,测得其肝糖原含量(mg/100g),结果见表10-1,问不同剂量组的小鼠肝糖原含量有无差别?表10-1不同剂量组小鼠肝糖原含量(mg/100g)number中剂量高剂量1620.16958.472866.50838.423641.22788.904812.91815.205738.96783.176899.38910.927760.78758.498694.95870.809749.92862.2610793.94805.481、建立检验假设H0:差值的总体中位数等于0,即Md=0H1:差值的总体中位数不等于0,即Md≠0双侧α=0.052、计算统计量T值检验步骤(1)求差值:计算各对数据的差值(2)编秩:按差值绝对值由小到大编秩。编秩时差值为0,则舍去不计;若差值的绝对值相等,称为相持,此时取平均秩次。3、求秩和并确定统计量T:将所有的秩次冠以原差值的符号,分别求出正负差值秩次之和,分别以T+,T-表示。双侧T=min(T+,T-);单侧任取其一为T。本例T+=48.5;T-=6.5number中剂量高剂量差值秩次1620.16958.47338.31102866.50838.42-28.08-53641.22788.90147.6884812.91815.202.291.55738.96783.1744.2166899.38910.9211.543.57760.78758.49-2.29-1.58694.95870.80175.8599749.92862.26112.34710793.94805.4811.543.54、确定P值和作出推断结论4、确定P值和作出推断结论n表示差数不为0的对子数,本例:n=10。当n≤50时,查附表9确定P值,该表中列出的是一个范围:在n=10处,有范围:8—47;由于T=6.5在此范围之外,即有:P<0.05,拒绝H0,接受H1。认为差值的中位数Md≠0。说明吃中剂量保健食品的小鼠的肝糖原与吃高剂量保健食品的小鼠的肝糖原不一样。二、单样本资料的符号秩和检验用于不满足t检验条件的单样本定量变量资料的比较。目的:推断样本中位数与已知总体中位数是否相等。例10-1已知某地正常人尿铅含量的中位数为2.50μmol/L。今在该地随机抽取16名工人,测得尿铅含量见表10-1第(1)栏。问该厂工人的尿铅含量是否高于当地正常人?表10-1某厂16名工人与当地正常人的尿铅含量(μmol/L)的比较尿铅含量差值秩次尿铅含量差值秩次0.623.130.783.272.133.542.484.382.544.382.685.052.736.083.0111.271、建立假设检验,确定检验水准H0:差值的总体中位数等于0,即该厂工人的尿铅含量与正常人相同H1:差值的总体中位数不等于0,即该厂工人的尿铅含量高于正常人单侧a=0.052、计算检验统计量T值(1)求差值(2)编秩:按照差值的绝对值由小到大编秩(3)分别求正、负秩和,记为T+,T-本例T+=108,T-=28(4)确定检验统计量:任取T+或T-为统计量T。本例n=16,T=28或T=108查附表9,单侧0.05对应T临界值区间为35-101所以P<0.05按照a=0.05检验水准,拒绝H0,接受H1,故可认为该厂工人的尿铅含量高于正常人。表10-1某厂16名工人与当地正常人的尿铅含量(μmol/L)的比较尿铅含量差值秩次尿铅含量差值秩次0.62-1.88-123.130.6370.78-1.72-103.270.7782.13-0.37-53.541.0492.48-0.02-14.381.88122.54-0.0424.381.88122.680.1835.052.55142.730.2346.083.58153.010.51611.278.7716当两个样本的方差不齐或不服从正态分布时,可以采Wilcoxon符号秩和检验对两个样本的差别作比较。基本假设:1)两个样本分别来自互相独立的两个总体2)检验假设是两个总体分布相同二、两样本资料的秩和检验定量变量两独立样本的秩和检验例:测量了甲乙两个河流断面亚硝酸盐氮的含量如下,问:两个河流断面亚硝酸盐氮含量的总体分布是否相同?1、建立检验假设H0:甲乙两河流断面亚硝酸盐氮含量的总体分布相同H1:甲乙两河流断面亚硝酸盐氮含量的总体分布不同双侧α=0.052、计算统计量T值(1)编秩:将两组数据混合,统一由小到大编秩,遇到相同数据取平均秩次。(2)求秩和T以n1表示样本含量较小的那个样本的例数;n2表示样本含量较大的那个样本的例数。则本例:n1=10,n2=15。秩和:T1=136;T2=189若n1=n2,则任取一组的秩和为统计量;若n1≠n2,则以样本例数较小者对应的秩和为统计量。本例n=10,T=1363、确定P值,作统计推断(附表10)当n1≤10,n2-n1≤10时,查附表得到95%的T所在范围,当T在此范围之中时,不拒绝H0;当T在此范围之外时,拒绝H0本例:n1=10,n2-n1=5,查附表,得范围:94~166因为T=136在此范围之内,因而不拒绝H0,认为甲乙两个河流断面亚硝酸盐氮含量的总体分布相同。有序分类变量两独立样本的秩和检验例:为了了解居民体内核黄素营养状况,于某年夏冬两个季节收集成年居民口服5mg核黄素后4小时的尿负荷,测定体内核黄素含量,结果见表10-3(1)、(2)、(3)栏,试比较该地居民夏冬两个季节体内核黄素含量有无差别?表10-3某地居民夏冬两个季节体内核黄素营养状况比较核黄素营养状况例数夏季冬季缺乏1022不足1418适宜164合计4044表10-3某地居民夏冬两个季节体内核黄素营养状况比较核黄素营养状况例数合计秩次范围平均秩次夏季冬季缺乏1022321~3216.5不足14183233~6448.5适宜1642065~8474.5合计404484————1、建立假设检验,确定检验水准H0:夏冬两个季节居民体内核黄素含量的总体中位数相等H1:夏冬两个季节居民体内核黄素含量的总体中位数不相等a=0.052、计算检验统计量T值(1)编秩:将两组数据按等级顺序由小到大统一编秩(2)求各组秩和本例n1=40,n2=44T1=16.5×10+48.5×14+74.5×16=2036T2=16.5×22+48.5×18+74.5×4=1534(3)确定统计量:T=T1=2036(4)确定P值,做出统计推断本例n=40,超出T界值表可查范围,采用正态近似检验。计算Z值。查t界值表得P<0.05,按a=0.05检验水准,拒绝H0,接受H1,差异有统计学意义,可认为夏冬两个季节居民体内核黄素含量有差别。三、多组独立样本的秩和检验完全随机设计多组样本比较的非参数方法是Kruskal和Wallis在Wilcoxon秩和检验的基础上发展而来的,故又称K-W检验或H检验。检验目的:推断多组样本分别代表的总体分布是否不同。基本步骤和两组连续变量资料秩和检验大致相同,只是确定的统计量不同。检验步骤:1、建立假设检验H0:三组总体的分布相同H1:三组总体的分布不全相同α=0.052、计算统计量H(1)编秩:三组混合编秩(2)求秩和:分别将各组秩次相加得到,记做R1,R2,R3(3)计算统计量3、确定P值,作出统计推断例研究白血病时,测定四组鼠脾DNA的含量,结果列于下表,试分析各组DNA含量有无差别?正常患自发性白患移植白血患移植白血脾血病的脾病的脾(甲组)病的脾(乙组)含量秩次含量秩次含量秩次含量秩次(1)(2)(3)(4)(5)(6)(7)(8)12.31810.889.319.5213.22211.61310.33.510.33.513.72612.31811.11110.5515.22812.72111.71410.5615.82913.52311.71510.5716.93013.52412.01610.9917.33114.82712.31811.01017.43212.42011.51213.625表9-6各组鼠脾DNA含量(mg)的秩和计算建立假设检验H0:四组鼠脾DNA含量的总体分布相同H1:四组鼠脾DNA含量的总体分布位置不全相同α=0.05计算统计量90.19132385.5495.123713482161323212)1N(3nT)1N(N12H2222i2i假设检验步骤查表及结论现k=4,ν=k-1=4-1=3查界值表20.05(3)=7.81,220.05(3);P0.05按α=0.05水准,拒绝H0,接受H1,故可认为四组DNA含量有差别。等级资料的统计推断为何使用秩和检验?χ2检验只能反映其构成比有无差异,不能比较效应的平均水平。秩次:在一定程度上反映了等级的高低;秩和:在一定程度上反映了等级的分布位置。对等级的分析,可以转化为对秩次的分析。讨论案例1:某研究者欲比较某药物与对照药的疗效,将类似病情的患者随机分成两组,分别接受该药物和对照药治疗疗效治疗组对照组合计恶化112无变化51419进步131023显著进步9514基本痊愈202合计303060表1某药物治疗某病人疗效结果分析推断对于该资料研究者作了列联表2检验:由于,P0.05,暂不拒绝H0,无统计学意义,暂不能认为某药物对治疗组与对照组的疗效不同。22(1)7.797,4RCAnvnn20.05,49.49请问:该方法合适吗?如不合适,该使用何种方法?正确的方法由于该资料为单向有序列联表资料,欲比较两种药物的疗效,如果采用R×C表的2检验,则反映不出两种药物在疗效上的等级差别,因此正确的方法应该采用秩和检验进行统计推断。检验方法
本文标题:秩和检验
链接地址:https://www.777doc.com/doc-5384654 .html