您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 人事档案/员工关系 > 第六节 四格表资料的确切概率法
检验2χ2检验(Chi-squaretest)是现代统计学的创始人之一,英国人K.Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,可用于拟合优度检验、两个或多个率或构成比间的比较等等。第一节2分布(1)自由度为1的2分布若ZN~(,),01则Z2的分布称为自由度为1的2分布.(chi-squaredistribution),记为()12或21().图形:从纵轴某个点开始单调下降,先凸后凹.02468100.00.10.20.32220.05(1)0.05/22220.01(1)0.01/23.84(1.96)6.63(2.5758)ZZ(2)ZZZ,...,,21互相独立,均服从N(,)01,则22221...ZZZ的分布称自由度为的2分布,记为()2或)(2,或简记为2.*图形:单峰,正偏峰;自由度很大时,2()近似地服从正态分布.有2()2(),22Z服从均数为,方差为的正态分布0.00.10.20.30.40.50369121518卡方值纵高自由度=1自由度=2自由度=3自由度=62/)12/(2222)2/(21)(ef3.847.8112.59P=0.05的临界值χ2分布(chi-squaredistribution)性质:若2122(),()互相独立,则2122()()服从2分布,自由度122122()()服从2分布,自由度12第二节拟合优度检验类别或组段观察频数理论频数1f11F2f22F………kfkkF问题:试判断这份样本,是否来自该理论分布?(1)H0:样本的总体与该理论分布无区别H1:样本与该理论分布有区别0.050.1或(2)Pearson2统计量221222112212-()()...kPikkkfFfFfFFFF(实际频数理论频数)理论频数自由度1()k计算理论分布时利用样本资料估计的参数个数(3)确定概率P并作出统计推论。注意:理论频数F不宜过小,如不小于5,否则需要合并例6-1某医学院校医生随机抽取100名一年级医学生,测定空腹血糖值(mmol/L),其频数分布如表6-1中第(1)栏和第(2)栏所示,试用2检验判断该资料是否符合正态分布。0H:空腹血糖的实际频数与正态分布的理论频数符合1H:…不符合10.0。本资料的均数X4.1966,6737.0S。本例因为正态分布有及两个参数,所以其自由度为:=k—1—2=10−3=7表6-1正态分布拟合优度的2检验XfZ()ZnFFFf2)((1)(2)(3)(4)(5)(6)=n(5)(7)2.65|50.03223.220.98392.95-1.850.0322|50.04714.710.01213.25-1.410.0793|40.08828.822.61823.55-0.960.1685|190.136513.652.09693.85-0.510.3050|120.167116.711.32764.15-0.070.4721|120.175917.591.77654.450.380.6480|240.145914.596.06914.750.820.7939|100.104110.410.01615.051.270.8980|50.05845.840.12085.351.710.9564|40.04364.360.02975.651001.0000100.0015.0509Z=(2.95-4.1966)/0.67372界值表得2=15.0520.1,712.02,P0.1,故按=0.10水准拒绝0H,可认为实际频数与正态分布的理论频数不符合,拟合优度不好。在自由度=7的卡方分布中,2=15.0509时P=“=CHIDIST(15.0509,7)”=0.03535第三节独立性检验一、四格表(2×2表)卡方检验二、行×列表卡方检验三、配对四格表卡方检验一、四格表(fourfoldtable)资料的2检验(两个样本率的比较)表6-2两种药物治疗消化道溃疡4周后疗效处理愈合未愈合合计愈合率(%)螺赛克64(57.84)21(27.16)8575.29雷米替叮51(57.16)33(26.84)8460.71合计1155416968.05表反应变量按二项分类的两个独立样本资料反应结果阳性阴性观察总频数阳性频率样本111A12An1(给定)1111PAn样本221A22An2(给定)2212PAn合计n1n2n(给定)Pnn1(1)检验01212112:():0.05HPPPH分别为样本率、、的总体率(2)用1nPn近似地代替,理论上应有:11111nnTnn12121(1)nnTnn21212nnTnn22222(1)nnTnn一般地,()()RCnnn行合计列合计理论频数=总计表反应变量按二项分类的两个独立样本资料反应结果阳性阴性观察总频数阳性频率样本111A12An1(给定)1111PAn样本221A22An2(给定)2212PAn合计n1n2n(给定)Pnn1例题:计算以下四格表的各理论频数:(1)(2)3527258163315221.基本公式2222111112122121222211122122()()()22(),()(1)ATATATATTTTTATT行数-1列数式中,A为实际频数(actualfrequency)T为理论频数(theoreticalfrequency)RCRCnnTn例6-2的计算结果222211111212220.05,11212222111221222222()()()(6457.84)(2127.16)(5157.16)(3326.84)4.1357.8427.1657.1622026.84,()(1)(21)(21)14.133.84,0.05ATATATATTTTTPH因行数-1列数所以,拒绝例题:甲乙两个医院用同一种手术方法治疗慢性胃溃疡,甲院治疗120人,有效率为80%;乙院治疗80人,有效率60%,请比较两医院该种治疗方法有无差异?若检验假设H0:π1=π2成立,四个格子的实际频数A与理论频数T相差不应该很大,即统计量不应该很大。如果值很大,即相对应的P值很小,若,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑H0的正确性,继而拒绝H0,接受其对立假设H1,即π1≠π2。2P22.卡方检验的基本原理3.四格表资料检验的专用公式22()()()()()adbcnabacbdcd发生数未发生数合计样本1aba+b样本2cdc+d合计a+cb+dn(四格表专用公式)基本公式:;1))()()(()())(())(())(())(())(())(()(222222dbcadcbanbcaddcbadbdcdcbadbdcddcbadbbadcbadbbabdcbacabadcbacabaaTTA表6-3两种药物治疗消化道溃疡效果处理愈合未愈合合计愈合率(%)洛赛克64(a)21(b)8575.29雷米替叮51(c)33(d)8460.71合计11554169(n)用表6-3资料,代入式(6-10),求2值如下:13.4541158485169)51213364(22,与前面计算的结果一致。4.四格表资料检验的连续性校正公式22(0.5)cATT222()()()()()nc|ad-bc|-n=a+bc+da+cb+d四格表资料检验公式选择条件:40,5nT2,专用公式或基本公式,校正公式;Fisher确切概率直接计算概率(Fisher确切概率)。40,15nT连续性校正仅用于的四格表资料,当时,一般不作校正。21240n,或1T,或P时,例6-3某医生欲研究不同分娩方式与重症肝炎孕产妇的结局的关系,资料见表6-4。问两种分娩方式的结局有无差别?表6-4重症肝炎孕产妇不同分娩方式的结局分娩方式存活死亡合计剖宫产41344阴道分娩18624合计59968H0:1=2H1:12=0.05首先考查最小行合计和最小列合计所对应的理论数,即最小理论数。本例的最小理论数为T22=3.18,且1T225,而n=6840,按式(6-12)计算校正2值如下:22416318682684424959303(/).,=123.84=20.05。按=0.05水准,不拒绝H0,…二、行×列表资料的检验2①多个样本率比较时,有R行2列,称为R×2表;②两个样本的构成比比较时,有2行C列,称2×C表;③多个样本的构成比比较,以及双向无序分类资料关联性检验时,有R行C列,称为R×C表。检验统计量(通用公式)22(1)(1)(1)RCAnnn行数列数nnnTCR总例数列合计行合计理论频数代入基本公式可推导出:基本公式通用公式)1()(2222CRnnAnTTA自由度=(行数1)(列数1)1.多个样本率的比较例6-4三种不同治疗方法治疗慢性支气管炎的疗效如表6-5,试比较三种方法治疗慢性支气管炎的疗效。表6-5三种不同方案治疗慢性支气管炎的疗效分组有效无效合计有效率(%)西药57308765.52中药24204454.55中西医结合1302015086.67合计21170281H0:三种治疗方法的有效率相等,H1:率不全相等,=0.0594.2417015020211150130704420211442470873021187572812222222=(3-1)(2-1)=2查附表3,2界值表,得P0.005。按=0.05水准,拒绝H0,接受H1,故可以认为三种方法治疗慢性支气管炎的效果不全相同。2.两组或多组样本构成比的比较例6-5试分析儿童患者与成年患者的血型分布构成比有无差别?表6-6儿童急性白血病患者与成人急性白血病患者的血型分布分组A型B型O型AB型合计儿童30383212112成人193019977合计49685121189H0:儿童白血病患者与成人患者的血型分布构成比相同H1:不相同,=0.05695.01211121251112326811238491123021779517719687730497719189222222222=(2-1)(4-1)=3,P0.5。按=0.05水准,不拒绝H0。例测得某地5801人的ABO血型和MN血型结果如下表,问两种血型系统之间是否有关联?表某地5801人的血型MN血型ABO血型MNMN合计O4314909021823A3884108001598B4955879502032AB13717932348合计14511666268458013.双向无序分类资料的关联性检验可用行×列表资料检验来推断两个分类变量之间有无关系(或关联);若有关系,可计算Pearson列联系数C进一步分析关系的密切程度:22Cn列联系数C取值范围在0~1之间。0表示完全独立;1表示完全相关;愈接近于0,关系愈不密切;愈接近于1,关系愈密切。2检验步骤:0H:两种血型系统间无关联1H:两种血型系统间有关联05.02222431490325801(1)1823145
本文标题:第六节 四格表资料的确切概率法
链接地址:https://www.777doc.com/doc-3285078 .html