您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 无序分类资料统计分析
无序分类资料的统计分析无序分类资料的统计分析卫生统计学教研室武振宇zyw@fudan.edu.cn1.1.无序分类资料的统计无序分类资料的统计分析分析在实际应用中,无序分类资料也是一种常见的数据类型。比较变量之间不同水平下的频数分布是否相同,常用卡方检验。此外,卡方检验还可应用到拟合优度、分析行变量与列变量之间是否独立性或一定的相关性等。概概述述卡方检验主要用于分类变量,它基本的原假设是:H0:行分类变量与列分类变量无关联H1:行分类变量与列分类变量有关联统计量221()kiiPiiATTχ=−=∑卡方检验卡方检验在H0为真时,实际观察数与理论数之差Ai-Ti应该比较接近0。由于检验统计量服从自由度为(行数-1)(列数-1)的卡方分布。故在H0为真时,当,拒绝H0。22,Pvαχχ221()kiiPiiATTχ=−=∑第二节两独立样本的四格表资料的假设检验一、两独立样本四格表资料卡方检验例11-2某研究小组为研究慢支口服液II号对慢性支气管炎治疗效果,以口服消咳喘为对照进行了临床试验,试验组120人、对照组117人(两组受试者病程、病情等均衡),疗程2周,两组治疗后有效的患者分别为116人、82人。问慢支口服液II号与消咳喘治疗慢性支气管炎的疗效是否相同?一、两独立样本四格表资料卡方检验例11-2某研究小组为研究慢支口服液II号对慢性支气管炎治疗效果,以口服消咳喘为对照进行了临床试验,试验组120人、对照组117人(两组受试者病程、病情等均衡),疗程2周,两组治疗后有效的患者分别为116人、82人。问慢支口服液II号与消咳喘治疗慢性支气管炎的疗效是否相同?表11-3试验组与对照组疗效组别有效无效合计有效率(%)试验组116412096.67对照组823511770.09合计1983923783.54卡方检验的统计量为2χ,计算公式如下:∑−=TTA22)(χ,υ=(行数-1)(列数-1)对于四格表资料来说还有专门的计算公式:))()()(()(22dbcadcbanbcad++++−=χ1.适用条件当n≥40,且所有理论频数T≥5时;当n≥40,但有1≤T<5时;当n<40,或有T<1时;当P≈α时;2.校正公式:卡方连续性校正公式四格表专用校正公式例11-3为评价中西结合治疗抑郁发作的疗效。将187例患者随机分为2组,两组患者均选用阿咪替林西医综合治疗,中西医结合组在上述治疗的同时,再配合中医辨证治疗,根据中医辨证分型采用不同的方剂,治疗结果见表11-5,问两种治疗方案的疗效有无差别?表11-5试验组与对照组疗效组别有效无效合计有效率(%)中西医结合组92(88.973)2(5.027)9497.87西医组85(88.027)8(4.973)9391.40注:括号内为理论频数二、两独立样本四格表资料连续性校正连续性校正公式:∑−−=TTA22)5.0(χ;))()()(()2(22dbcadcbannbcad++++−−=χ–注意:确切概率法不属于χ2检验的范畴,但常作为χ2检验应用上的补充。例研究某新药治疗原发性高血压的疗效,并用常规治疗药物作为对照组,结果见表6.9,问新药疗效与对照组疗效有无差别?表6.9某新药治疗原发性高血压的疗效分组有效无效合计有效率(%)试验组20(a)8(b)2871.43对照组2(c)6(d)825.00合计22143661.11三、四格表资料Fisher确切概率法分析实例分析实例1.建立检验假设和确立检验水准–H0:新药组与对照组疗效相等,即π1=π2–H1:新药组与对照组疗效不等,即π1≠π22.计算概率和确定P值–本例n=a+b+c+d=3640,不满足χ2检验的应用条件,宜采用四格表确切概率法。方法原理方法原理•在四格表周边合计不变的条件下,在相应的总体中进行抽样,四格表中出现各种排列组合情况的概率–本例即28、8、22、14保持不变的条件下,若H0成立,计算出现各种四格表的概率!!!!!)!()!()!()!(ndcbadbcadcbaP++++=方法原理方法原理表6.10在四格表(表6.9)周边合计不变的条件下,π1=π2时的概率分布计算d0123456*78P(d)0.01060.07890.22440.31680.24200.10190.02290.00250.0001累计概率0.01060.08950.31380.63060.87260.97450.99740.99991.0000*本例现有样本情况d=6。•然后将其中小于等于现有样本概率的概率值相加,即为P值:–本例中P值=P(0)+P(6)+P(7)+P(8)=0.03610.05第三节多个独立样本行×列表资料的假设检验例11-5为探讨埃兹蛋白(Ezrin)在胃癌组织中的表达情况,采用免疫组化法检测50例胃癌组织、25例胃粘膜不典型增生和25例正常胃粘膜中Ezrin的表达,结果见表11-9。问不同胃组织Ezrin表达阳性率是否相同?表11-9Ezrin在不同胃组织中的表达组别观测例数阳性例数阴性例数阳性率(%)正常胃粘膜257(15.250)18(9.750)28.0不典型增生2511(15.250)14(9.750)44.0胃癌组织5043(30.500)7(19.500)86.0合计100613961.0注:括号内为理论频数R×C列联表资料卡方检验对于R×C列联表来说,计算公式为∑−=TTA22)(χ,υ=(行数-1)(列数-1)由于nnnTCR=,将该式代入上式,可得到R×C列联表展开后的计算公式:⎟⎟⎠⎞⎜⎜⎝⎛−=∑122CRnnAnχ,υ=(行数-1)(列数-1)第四节配对设计两样本率比较的卡方检验方法原理方法原理例用A、B两种方法检查已确诊的乳腺癌患者140名,A法检出91名(65%),B法检出77名(55%),A、B两法一致的检出56名(40%),问哪种方法阳性检出率更高?方法原理方法原理例用A、B两种方法检查已确诊的乳腺癌患者140名,A法检出91名(65%),B法检出77名(55%),A、B两法一致的检出56名(40%),问哪种方法阳性检出率更高?法B法A+-合计+56(a)35(b)91-21(c)28(d)49合计7763140方法原理方法原理•显然,本例对同一个个体有两次不同的测量,从设计的角度上讲可以被理解为自身配对设计•上述问题为:两种“处理”之差别分析方法原理方法原理•注意–考虑该例四格表中两处理阳性检出率是否相同只要考虑四格表中的非对角元素的差异•假设检验步骤如下:–H0:两法总体阳性检出率无差别,即B=C–H1:两法总体阳性检出率有差别,即B≠C方法原理方法原理根据H0得b、c两格的理论数均为Tb=Tc=(b+c)/2,对应的配对检验统计量为:1,)(22=+−=νχcbcb一般在b+c40时,采用确切概率法。注意事项注意事项•McNemar检验(配对卡方检验)只会利用非主对角线单元格上的信息,即它只关心两者不一致的评价情况,用于比较两个评价者间存在怎样的倾向。因此,对于一致性较好的大样本数据(a,d较大且b,c较小时),McNemar检验可能会失去实用价值。–例如对1万个案例进行一致性评价,9995个都是完全一致的,在主对角线上,另有5个分布在左下的三角区,显然,此时一致性相当的好。但如果使用McNemar检验,此时反而会得出两种评价有差异的结论来。注意事项注意事项配对四格表卡方与成组设计卡方由于配对设计的资料同一对观察结果间一般是非独立的,而成组设计的资料一般可以认为是独立的,所以配对四格表资料不能用成组设计的χ2或Fisher检验的,而要用配对设计的χ2或配对设计的直接计算概率法进行检验。五、关联性分析例:为了了解血型与胃溃疡、胃癌之间的关系,在某地随机抽样得到下列资料,试问两者之间是否存在一定关系?血型与胃溃疡、胃癌之间的关系血型胃溃疡胃癌正常合计O型198020250000252000A型134018210000211358B型30010150000150310AB型36012140000140372合计398060750000754040分析步骤分析步骤•建立检验假设,确定检验水准–:血型与胃溃疡、胃癌之间没有关联性–:血型与胃溃疡、胃癌之间有关联性•求出统计量值和自由度0H1H05.0=α2χν)1(22−=∑CRnnAnχ)(列数)行数11(−×−=ν经计算,有分析步骤分析步骤33.870)1(22=−=∑CRnnAnχ自由度6)13()14(=−×−=ν•确定P值,下结论查附表8,,,,按0.05水准不能拒绝原假设,可以认为血型与胃溃疡、胃癌之间有关联性。分析步骤分析步骤59.122,605.0=χ2,605.02χχ05.0P注意的问题注意的问题1.多重比较:多个独立样本率(构成比)比较,当,而拒绝时,仅说明总体率(构成比)间总的而言有差别,若要了解每两个组的率(构成比)差别情况,还需进行多重比较。2.当效应指标为有序分类变量资料时,检验只能说明效应指标定性反应类别的构成比是否相同,而各组效应的比较宜采用秩和检验2,2ναχχ≥α≤P0H2χ注意的问题注意的问题3.行列表卡方检验的适用条件–理论频数不宜太小,一般认为不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1–不太理想的办法•与邻近行或列中的实际频数合并•删去理论频数太小的格子所对应的行或列–昀理想的办法•增加样本含量以增大理论频数(但是可能吗)•确切概率法
本文标题:无序分类资料统计分析
链接地址:https://www.777doc.com/doc-3980080 .html