您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 第三节 分类变量资料的统计分析-统计推断
第三节分类变量资料的统计分析——统计推断信阳职业技术学院赵玉霞一率的抽样误差与可信区间二率的统计学推断1.样本率与总体率比较的u检验2.两个样本率比较的u检验三卡方检验1.四格表2检验(两个率比较)2.配对四格表2检验(两个率比较)3.行×列(R×C)2检验(多个率或构成比比较)主要内容19:46•能够计算率的标准误并能进行两个率差别的u检验•描述总体率的估计方法•能够进行两个率或多个率(或构成比)差别的2检验学习目标19:46一率的抽样误差与可信区间1.率的抽样误差与标准误2.总体率的可信区间19:461.率的抽样误差与标准误nX/X如果总体均数μ未知,用样本均数估计样本均数()和总体均数(μ)的差异称为均数的抽样误差(samplingerrorofrate),用均数的标准误(standarderrorofrate)度量。Xnssx/复习19:461.率的抽样误差与标准误样本率(p)和总体率(π)的差异称为率的抽样误差(samplingerrorofrate),用率的标准误(standarderrorofrate)度量。np)1(如果总体率π未知,用样本率p估计nppsp)1(19:46率的标准误的计算例观察某医院产妇106人,其中行剖腹产者62人,剖腹产率为58.5%,试估计剖腹产率的标准误。解:已知n=106,p=0.585,其标准误为:%8.4048.0106)585.01(585.0)1(nppSp19:462.总体率的可信区间(confidenceintervalofrate)根据样本率推算总体率可能所在的范围当n足够大,且np和n(1-p)均大于5时,p的抽样分布逼近正态分布。其可信区间为:双侧:(p-uα/2Sp,p+uα/2Sp)(u0.05/2=1.96)单侧:p-uαSp或p+uαSp(u0.05=1.645)试估计p=0.585,Sp=0.048的总体率双侧95%可信区间。解:u0.05/2=1.96,(p-uα/2Sp,p+uα/2Sp)=(0.585-1.96×0.048,0.585+1.96×0.048)=(0.491,0.679)即总体率的95%可信区间为49.1%~67.9%。注意:如果计算获得的可信区间下限小于0%,上限大于100%,则将下限直接定为0%,上限直接定为100%。19:46二率的统计学推断1.样本率与总体率比较u检验2.两个样本率的比较u检验19:461.样本率与总体率比较的u检验u检验的条件:np和n(1-p)均大于5时例α-地中海贫血基因携带率:山区p=12/125=0.096,n=125;本省一般成人π0=0.076,H0:π=π0=0.076H1:π≠π0α=0.05。按α=0.05水准,不拒绝H0,即不能认为该山区与本省一般成人的α-地中海贫血基因携带率有差异。)1(0000nppup844.0125)076.01(076.0076.0096.019:462.两个独立样本率比较的u检验96.11949.2)6412041)(1045.01(1045.00313.01275.0u两种疗法的心血管病病死率比较疗法死亡生存合计病死率(%)盐酸苯乙双胍26(X1)178204(n1)12.75(p1)安慰剂2(X2)6264(n2)3.13(p2)合计2824026810.45(pc)2122112121nnpnpnnnXXpc)11)(1(21212121nnppppSppuccppu检验的条件:n1p1和n1(1-p1)与n2p2和n2(1-p2)均519:46小结1.样本率也有抽样误差,率的抽样误差的大小用σp或Sp来衡量。2.率的分布服从二项分布。当n足够大,π和1-π均不太小,有nπ≥5和n(1-π)≥5时,近似正态分布。3.总体率的可信区间是用样本率估计总体率的可能范围。当p分布近似正态分布时,可用正态近似法估计率的可信区间。4.根据正态近似原理,可进行样本率与总体率以及两样本率比较的u检验。19:46率的u检验能解决以下问题吗?率的反应为生与死、阳性与阴性、发生与不发生等二分类变量,如果二分类变量为非正反关系(如治疗A、治疗B);反应为多分类,如何进行假设检验?率的u检验要求:n足够大,且nπ≥5和n(1-π)≥5。如果条件不满足,如何进行假设检验?19:46三卡方检验2检验(Chi-squaretest)是现代统计学的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于两个或多个率间的比较,计数资料的关联度分析,拟合优度检验等等。本章仅限于介绍两个和多个率或构成比比较的2检验。19:46三卡方检验1.四格表2检验(两个率比较)2.配对四格表2检验(两个率比较)3.行×列(R×C)2检验(多个率或构成比比较)19:46卡方检验的基本思想疗法死亡生存合计病死率(%)盐酸苯乙双胍26(a)178(b)204(a+b)12.75(p1)安慰剂2(c)62(d)64(c+d)3.13(p2)合计28(a+c.)240(b+d.)268(a+b+c+d=n)10.45(pc)1.四格表(fourfoldtable)2检验两种疗法的心血管病病死率的比较如果确实p1=p2,那么两种疗法的病死率理论上都应该等于pc,故可算出实际频数A(a、b、c、d)所对应的理论频数T(T11,T12,T21,T22)(H0:π1=π2=π)19:46卡方检验的基本思想1.四格表(fourfoldtable)2检验疗法死亡生存合计病死率(%)盐酸苯乙双胍26(a)178(b)204(a+b)12.75(p1)安慰剂2(c)62(d)64(c+d)3.13(p2)合计28(a+c.)240(b+d.)268(a+b+c+d=n)10.45(pc)两种疗法的心血管病病死率的比较T11=(a+b)×pc=(a+b)×[(a+c.)/n]=R1C1/n=21.3T12=(a+b)×(1-pc)=(a+b)×[(b+d.)/n]=R1C2/n=182.7T21=(c+d)×pc=(c+d)×[(a+c)/n]=R2C1/n=6.7T22=(c+d)×(1-pc)=(c+d)×[(b+d.)/n]=R2C2/n=57.3nnncolumnrowTCR总例数合计列合计行)()(19:46)1)(1(,1)()(222CRTTATTA如果,H0:π1=π2=π成立,实际数值与理论数值之间差异是抽样误差造成的;若H0:π1≠π2,实际数值与理论数值的差异也有统计学意义。两种疗法病死率的比较,就转变成了格子内的实际数值与理论数值的比较。计算检验统计量:各种情形下,理论与实际偏离的总和即为卡方值(chi-squarevalue),它服从自由度为ν的卡方分布。卡方检验的基本思想1.四格表(fourfoldtable)2检验19:46卡方检验的基本思想1.四格表(fourfoldtable)2检验)1)(1(,1)()(222CRTTATTA实际数值与理论数值的差异越大,2值就越大,H0发生的概率(P)越小,若P0.05或0.01,我们就认为,两疗法病死率差异显著。实际数值与理论数值的差异越小,2值就越小,H0发生的概率(P)越大,若P0.05或0.01,我们就认为,两疗法病死率差异不显著,无统计学意义。19:46卡方检验的基本思想1.四格表(fourfoldtable)2检验疗法死亡生存合计病死率(%)盐酸苯乙双胍26(21.3)178(182.7)204(a+b)12.75(p1)安慰剂2(6.7)62(57.3)64(c+d)3.13(p2)合计28(a+c.)240(b+d.)268(a+b+c+d=n)10.45(pc)两种疗法的心血管病病死率的比较1)12)(12(82.4)3.5717.617.18213.211(7.423.57)3.5762(27.6)7.62(27.182)7.182178(23.21)3.2126(22v查表2(0.05,1)=3.84,2=4.823.84,P0.05两种疗法病死率差异显著。19:460.00.10.20.30.40.50369121518卡方值纵高自由度=1自由度=2自由度=3自由度=62/)12/(2222)2/(21)(ef3.847.8112.59P=0.05的临界值2分布(chi-squaredistribution)19:462检验的基本公式)1)(1(1)()(222CRTTATTA上述基本公式由Pearson提出,因此软件上常称这种检验为Peareson卡方检验,下面将要介绍的其他卡方检验公式都是在此基础上发展起来的。它不仅适用于四格表资料,也适用于其它的“行×列表”。19:46四格表专用公式为了不计算理论频数T,可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:(四格表专用公式)基本公式:;1))()()(()())(())(())(())(())(())(()(222222dbcadcbanbcaddcbadbdcdcbadbdcddcbadbbadcbadbbabdcbacabadcbacabaaTTA19:46四格表专用公式021,05.0221021,05.0221,05.0205.0;84.3,,05.0;84.305.0;84.31,82.46424028204268)21786226(22HPHPP,即不拒绝则如果即拒绝如果下结论:2(1)~u2=2.19492=4.82(n40,所有T5时)19:46四格表连续性校正公式2分布是一连续型分布,而行×列表资料属离散型分布,对其进行校正称为连续性校正(correctionforcontinuity),又称Yates校正(Yates'correction)。⑴当n≥40,而1≤T<5时,用连续性校正公式⑵当n<40或T<1时,用Fisher精确检验(Fisherexacttest)校正公式:列表资料),(也适合其它行TTAc22)5.0())()()(()2/(22dbcadcbannbcadc19:46四格表连续性校正公式两零售点猪肉表层沙门氏菌带菌情况检查结果沙门氏菌零售点阳性阴性合计带菌率(%)甲2(4.17)26(23.33)287.14乙5(2.33)9(11.67)1435.71合计7354216.671,62.3357142842)24262592(22c1,49.5357142842)26592(22因为1<T<5,且n>40时,所以应用连续性校正χ2检验19:462.配对四格表资料的2检验配对设计某抗癌新药两种剂量的毒理实验结果乙剂量甲剂量死亡(+)生存(-)合计死亡(+)6(a)12(b)18生存(-)3(c)18(d)21合计93039成组设计某抗癌新药两种剂量的毒理实验结果结果分组死亡(+)生存(-)合计甲剂量(a)(b)乙剂量(c)(d)合计78对子号甲剂量乙剂量1死亡死亡2死亡生存………39生存生存编号剂量组结果1甲死亡2乙生存………78甲生存19:46配对四格表资料的2检验1,)1(2402cbcbcb时,需作连续性校正,1,27.4312)1312(22,4015采用连续性校正本例cb1,)(2240ccbcbb时,当
本文标题:第三节 分类变量资料的统计分析-统计推断
链接地址:https://www.777doc.com/doc-4102848 .html