您好,欢迎访问三七文档
卡方检验(Chi-squaretest)LiJunrongstat9@126.com7.1四格表资料的χ2检验检验(Chi-squaretest)是现代统计学的创始人之一K.Pearson提出的一种具有广泛用途的统计方法。该检验可用于两个及多个率(或者构成比)之间的比较,计数资料的关联度分析,拟合优度检验等。2一、卡方检验的基本思想首先介绍一个抽样分布:卡方分布属连续型分布可加性是其基本性质唯一参数,即自由度(1)自由度为1的2分布若ZN~(,),01则Z2的分布称为自由度为1的2分布.(Chi-squaredistribution),记为()12或21().图形:02468100.00.10.20.32220.05(1)0.05/22220.01(1)0.01/23.84(1.96)6.63(2.5758)ZZ(2)ZZZ,...,,21互相独立,均服从N(,)01,则22221...ZZZ的分布称自由度为 的2分布,记为()2或)(2,或简记为2.图形:自由度很大时,2()近似地服从正态分布.有2()2(),22Z服从均数为,方差为的正态分布0.00.10.20.30.40.50369121518卡方值纵高自由度=1自由度=2自由度=3自由度=62/)12/(2222)2/(21)(ef3.847.8112.59P=0.05的临界值χ2分布(Chi-squaredistribution)性质:若2122(),()互相独立,则2122()()服从2分布,自由度122122()()服从2分布,自由度12称该分布具有可加性。卡方检验的基本思想组别有效无效合计有效率(%)试验组99510495.20(p1)对照组75219678.13(p2)合计1742620087.00(pc)表7-1两组降低颅内压有效率的比较(P137)实际频数A(actualfrequency)理论频数T(theoreticalfrequency)nnncolumnrowTCR总例数合计列合计行)()(RC四格表(fourfoldtable)它反映了理论数与实际数的吻合情况,该统计量近似地服从自由度为ν的卡方分布。)1)(1(,)(22CRTTA2222(9990.48)(513.52)(7583.52)(2112.48)290.4813.5283.5212.4812.86(21)(21)1v查附表8,P8230.00.10.20.30.40.50369121518卡方值纵高自由度=1自由度=2自由度=3自由度=62/)12/(2222)2/(21)(ef3.847.8112.59P=0.05的临界值χ2分布(Chi-Squaredistribution)χ2检验的基本公式22(),(1)(1)ATRCT上述检验统计量由K.Pearson提出,因此许多统计软件上常称这种检验为Pearson’sChi-squaretest,下面将要介绍的其他卡方检验都是在此基础上发展起来的。二、四格表资料专用公式为了省去计算理论频数T,可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:2222222()()()()()()()()()()()()(()()()()())1;ATTabacabbdcdbdabdabcdabcdabcdabacabbdcdbdabcdabcdabcadbcnabcdacddb基本公式:(四格表检验专用公式)上面的例子20.005,1220.05,1220.05,12200(9921575)212.86,110496174267.88;0.0053.84;0.053.84;0.05PPP如果如果查附表8,P823三、连续性校正公式χ2分布是一连续型分布,而四格表资料属离散型资料,对其进行校正称为连续性校正(correctionforcontinuity),又称Yates校正(Yates'correction)。校正公式:22(0.5)cATT))()()(()2/(22dbcadcbannbcadc一般认为:四格表在n40时出现有任一格1≤T<5时,需要校正。例子2(468618782)7823.14,152266414c因为有一格1<T<5,且n>40时,所以应用连续性校正χ2检验。例7-2P140四、精确概率法(Fisher’sexactprobability)在无效假设成立的前提下且周边合计固定时,产生任意一个四格表(i)的概率Pi服从于超几何分布,其计算式为:i!!!!P!!!!!abcdacbdabcdn原理:P值为在无效假设成立的前提下,得到现有样本四格表以及更极端情况下的四格表的概率。四格表资料分析小结Fisher’sexactprobability法均适用卡方检验是一种近似检验(1)当n≥40,T5时,可用。然而当P值接近0.05时最好用Fisher’sexactprobability法;(2)当n≥40,有任一格1≤T<5时,可用Yates校正公式;(3)当n<40或有T<1时,用Fisher’sexactprobability。7.2配对四格表资料的χ2检验若a(甲+乙+)、b(甲+乙-)、c(甲-乙+)、d(甲-乙-)。将a、b、c、d四种情况的对子数填入四格表配对设计包括:(1)同一批样品用两种不同的处理方法;(2)观察对象根据配对条件配成对子,同一对子内不同的个体分别接受不同的处理;(3)在病因和危险因素的研究中,将病人和对照按配对条件配成对子,研究是否存在某种病因或危险因素。P141例7-3观察的结果只有阳性、阴性两种可能,清点成对资料时发现则存在四种情况。(1)两种方法都出现阳性(共有11例);(2)免疫荧光法阳性而乳胶凝集法却是阴性(共有12例);(3)免疫荧光法阴性而乳胶凝集法却是阳性(共有2例);(4)两种检测方法均为阴性结果(共有33例)。上述几种情况整理成配对四格表(表7-3)配对四格表资料的χ2检验(McNemar'stest)1,)1(2402cbcbcb时,需作连续性校正,1,)(2240ccbcbb时,当H0:b,c来自同一个实验总体(B=C);H1:b,c来自不同的实验总体();α=0.05。BC注:B=C=(b+c)/27.4行×列表资料的检验2专用公式)1(22CRnnAn1、多个样本率的比较2、样本构成比的比较3、双向无序分类资料的关联性检验自由度ν=(R-1)(C-1)多个样本率或两个构成比比较的2检验表7-8三种疗法有效率的比较疗法有效无效合计有效率(%)物理疗法199720696.60药物治疗1641818290.11外用膏药1182614481.94合计4815153290.41H0:π1=π2=π3,即三种疗法治疗周围性面神经麻痹的总体有效率相等H1:三种疗法治疗周围性面神经麻痹的有效率不全相等05.02222199726532(1)206481206511445121.042)12)(13(查2界值表,得p<0.005,按α=0.05水准,拒绝H0,接受H1,三种疗法治疗周围性面神经麻痹的有效率有差别。双向无序分类资料的关联性检验表7-10某地5801人的血型ABO血型MN血型合计MNMNO4314909021823A3884108001598B4955879502032AB13717932348合计1451166626845801问题:(1)两分类变量(行、列变量)有无关联?(2)关联程度如何?分析步骤:H0:两种血型系统间无关联(独立性检验)H1:两种血型系统间有关联05.02222431490325801(1)182314511823166634826846)13)(14(213.16结论:两种血型系统间虽然有关联性(有统计学意义),但列联系数数值较小,仍可认为关系不太密切。进一步计算列联系数:22213.160.18835801213.16Cn查界值表(P823)得:P<0.005。按α=0.05检验水准拒绝H0,接受H1,认为两种血型系统间有关联。R×C表χ2检验的应用注意事项1.Pearson’schi-quaretest对理论频数有要求。对R×C表,若较多格子(1/5)的理论频数小于5或有一个格子的理论频数小于1,则易犯第一类错误。出现某些格子中理论频数过小时怎么办?(1)增大样本含量(最好!)(2)根据专业知识将相邻的行或列进行合理合并。(易丢失部分信息!有时甚至出假象!)(3)精确概率法。(4)似然比χ2检验(likelihoodratioChi-squretest)2.R×C表χ2检验若有统计学意义,有必要进一步比较时,可考虑多重比较(本章第5节)。R×C表χ2检验的应用注意事项(续)3.两组/多组比较时,若效应有强弱的等级(单向有序分类资料),如+,++,+++,只能采用非参数检验方法(秩和检验或Ridit分析)。χ2检验只能反映其构成比有无差异,不能比较效应的平均水平,故不能用!。4.行列两种属性皆有序时(双向有序分类资料):1)属性不同,考虑分析目的有三:单向有序行列表分析,线性趋势检验(本章第六节,下述)或等级相关分析(后述)。2)属性相同,是配对四格表的扩展,可作一致性检验(Kappa检验)。7.5多个样本率比较的分割法2一、多个实验组间的两两比较(类似于Post-hoc分析中探索性比较)H0:,任两对比组的总体有效率相等H1:,任两对比组的总体有效率不等ABAB检验假设:(以P146例7-6为例,进一步分析)05.0检验水准调整:'(1)/21=kk+三种疗法治疗周围性面神经麻痹的实例中,检验水准调整为:0125.04/05.012/)13(305.0'对应的临界值:P150表7-1120.0125,16.24注:k为被比较率的个数对比组有效无效合计值值物理疗法组19972066.760.0125药物治疗组16418182合计36325388物理疗法组199720621.320.00313外用膏药组11826144合计31733350药物治疗组164181824.590.0125(NS)外用膏药组11826144合计28244326表7-12三种疗法有效率的两两比较(P151)2P二、各实验组与同一对照组比关键是检验水平的校正'21k自学7.6双向有序分组资料的线性趋势检验表7-13年龄与冠状动脉硬化的关系(P154)不作要求年龄(岁)(X)冠状动脉硬化等级(Y)合计—++++++20~7022429830~2724936340~162313759≥50920151458合计1228941262787.7频数分布拟合优度检验类别或组段观察频数(实际频数)理论频数(假定来自某分布)11A1T22A2T………kkAkT问题:试判断这份样本,是否来自某理论分布?(1)H0:样本来自该理论分布(样本代表的总体与该理论分布相同)H1:样本不是来自该理论分布0.050.1或(2)Pearson2统计量22ii1ikiT(A-T)自由度1()k拟合理论分布参数的个数(3)确定概率P并作出统计推论。注意:理论频数F不宜过小,如不小于5,否则需要合并例某医学院校医生随
本文标题:第7章卡方检验
链接地址:https://www.777doc.com/doc-2111711 .html