您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 2.5列联表的独立性检验
2.5列联表的独立性检验二维rs列联表BA1,B2,BsB合计1A11n12n1sn1n2A21n22n2sn2nrA1rn2rnrsnrn合计1n2nsnnn1rjijinn12r12,(,,),(,,).,(,..sijijABArAAABsBBBnABn设为两个定性变量,有个不同水平有个不同水平观测次各水平组合)出现频数为1siijjnn11=rsijijnnn一、二维列联表rs列表如下:令:吸烟与肺癌列联表患肺癌不患肺癌总计吸烟603292不吸烟31114总计6343106为了调查吸烟是否对肺癌有影响,对63位肺癌患者及43位非患者(对照组)调查了其中的吸烟人数.2×2列联表rs列联表的联合及边缘分布列BA1,B2,BsBi1A11121s12A21222s2rA1r2rrsrj12s1二、二维列联表的独立性检验rs1,1,2,,siijjir1,1,2,,.rjijijs12r12,,,,,,.(,,,.sijijijABAAAABBBBABAB设为随机变量,取值取值为取值)的概率为,为的边缘分布列表如下:111.rsijij,,1,2,1,2,.ijijABirjs若独立0,HAB原假设:独立1,HAB备则假设:不相互独立(,)).ijijABnnn的观测值为对应的列联表(观测次数,为观测频数,理论频数0H成立,0ijijHnnn如果成立,较大时,理论频数与相应的观测频数相差均不应很大。,1,2,,1,2,,.ijijirjs即为成立,),.ijijij即为至少(使1,2,,1,2,,.ijijnnirjs即成立,对检验基本思想:2211-Qrsij(观测频数理论频数)理论频数2Q.c拒绝域形式0.HQ2如果成立,的值应较小称为Pearson2统计量ˆˆ,.jiijnnnn因为2221111Qijijrsrsijijijijijijnnnnnnnnnnnnnn检验统计量211-rsijijijijnnn()0211.HQr-)s-2如果成立,渐近服从自由度为(()的分布ijn0.Hijijnn成立例1随机抽取某校男生35名,女生31,进行体育达标考核,结果如下表问体育达标水平是否与性别有关?体育达标考核情况表达标未达标合计男152035女131831合计2838660H:体育达标水平与性别无关1H:体育达标水平与性别有关(1)建立假设(2)计算2Q值,理论频数=ijijnnnn估计为:2211Qijijrsijijnnnnnnn85.14662835353820.1566312813.1566313817.8566(3)统计决断:首先确定自由度df,本例df=1,查df=1的2表,2(0.05)1()=3.84,故有2<2(0.05)1().其结论为:体育达标水平与性别无关.因此在0.05显著性水平下,接受原假设.22222(1514.85)(2020.15)(1313.15)(1817.85)14.8520.1513.1517.850.006QR函数chisq.test()x-matrix(c(15,13,20,18),nr=2)chisq.test(x,correct=F)R程序如下输出结果为Pearson'sChi-squaredtestdata:xX-squared=0.0057,df=1,p-value=0.9397因此在0.05显著性水平下,接受原假设.92页例2.14自己看2.5.2Fisher精确检验不满足时,用Pearson近似效果很差,一般采用Fisher精确检验.在使用Pearson独立性检验时,要注意格子2的期望频数小于5的格子数不超过总格子数的20%,且没有一个格子的期望频数小于1Fisher精确检验对于单元频数小的表格特别适用四表格的Fisher精确检验频数四表格BBAA11n12n22n21n合计1+n2+n+1n+2n++n对应的概率四表格1BBAA11p12p22p21p合计1+p2+p+1p+2p假设边缘频数1212nnnn,,,固定1121nn,分别服从二项分布1+12+2()()BnpBnp,和,1=(|),pPBA其中,表示有属性A的个体中有属性B的条件概率2(|)pPBA表示没有属性A的个体中有属性B的条件概率12=,pp如果则属性A和属性B相互独立即有属性A的个体中有属性B的个体的频率与没有属性A的个体中有属性B的个体的频率应该没有显著的差异.112112+nnnn即有12,pp如果表示有属性A的个体中有属性B的比例高12,pp如果表示有属性A的个体中有属性B的比例低112112+nnnn即112112+nnnn即四表格的检验问题,即属性A和B的独立性检验问题有012112(1):=,:HppHpp012112(2):=,:HppHpp012112(3):=,:HppHppFisher精确检验的统计量假设边缘频数1212nnnn,,,都固定ijNij是第行列格子的频数统计量ijN服从超几何分布1212(=)iiinnnnijijnnCCPNnC121211122122!!!!!!!!!nnnnnnnnn11N若选为统计量,11121211111(=)nnnnnnCCPNnC121211122122!!!!!!!!!nnnnnnnnn事实上,确定了,其它三个值也就确定了11n1212====3nnnn5,3,5,则有下面四种取值ijn2332415030211203利用公式可以计算出取2,3,4,5的概率11n11(=2)PN3!5!3!5!=0.17857148!2!3!3!0!在独立的原假设下,取这些值的概率是不同的,但各种取值都不会是小概率事件,11N11N过大或过小都可能拒绝原假设拒绝域形式为111111NcNcFisher精确检验的计算比较复杂,所以一般用于n比较小的四表格.例:为了解某种新药的疗效是否提高,将42位病人随机分组注射两种药物,试验结果如下表所示药物有效无效合计新8210旧141832合计222042R程序如下新药疗效没有提高0H:新药疗效有提高1H:x-matrix(c(8,14,2,18),nr=2)fisher.test(x,alternative=greater)输出结果为Fisher'sExactTestforCountDatadata:xp-value=0.04849alternativehypothesis:trueoddsratioisgreaterthan195percentconfidenceinterval:1.010589Infsampleestimates:oddsratio4.950963拒绝原假设,认为备则假设成立.优势比优势比:属性A时,有属性B与没有属性B的优势.称条件概率(|)PBA与(|)PBA之比为当个体有1111112121(|)=.(|)pppPBApPBApp2122(|)=(|)pPBApPBA类似地,为当个体没有属性A时,有属性B与没有属性B的优势,称这两个优势的比为优势比11221221ppORpp下列结论成立:如果在有属性A的个体中有B的比例高,则优比OR1;如果在有属性A的个体中有B的比例低,则优比OR1如果属性A和属性B相互独立,则优比OR=1.优势比大于1与新药较旧药疗效有提高等价.三、三维列联表rst1212r1212,,,,,,,,(,1,2,1,2,,1,2.sstijkijkABCBBBBAAAABBBBCCCCABCirjskt设为随机变量,取值为取值取值为取值为取值,)的概率为,(,,)).ijkijkABCnnn的观测值为对应的列联表(观测次数,为观测频数,理论频数关于某项政策调查所得结果观点:赞成观点:不赞成低收入中等收入高收入低收入中等收入高收入男201055810女25157279大致可以看出女性赞成的多,低收入赞成的多.,,',,.ABC设表示性别,取值男,女表示收入取值低中等高表示态度取值赞成,不赞成三维列联表232观点赞成低收入中等收入高收入男202015女25157观点不赞成低收入中等收入高收入男5810女279性别男低收入中等收入高收入赞成201015不赞成5810性别女低收入中等收入高收入赞成25157不赞成279部分表即为固定其中一个变量在某一水平上,其余两个变量构成的二维列联表.部分表C固定取值赞成C固定取值不赞成A固定取值男A固定取值女低收入中等收入高收入男252825女272216(.将某个变量在它各个水平上上的部分表结合对应的频数相加),所得到的另外两变量的二维列联表边缘表,.AB关于的边缘表低收入中等收入高收入赞成201015不赞成5810,.BC关于的边缘表部分表是固定一个变量在其不同一水平上的二维列联表.边缘表是忽略一个变量形成另外两个变量的二维列联表..四各种独立性及关系,,.ABC(1)相互独立,,,1,2,1,2,,1,2,.ijkijkABCirjskt相互独立,.ABC(2)联合独立于,,1,2,1,2,,1,2,.ijkijkABCirjskt联合独立于,,.ACBBCA类似可定义联合独立于及联合独立于(3),.CkAB在第水平上和条件独立|,|ijkijkijkkPAABBCC|||2,==,1,2,1,2,.ikjkijkikjkkCkABirjs在第水平上和条件独立(4),.CAB给定时和条件独立,.CAB在的每一水平上和均是条件独立|||=,1,2,1,2,,1,2,.ijkikjkirjskt,1,2,1,2,,1,2,.ikjkijkkirjskt或(5).AB和是边缘独立的.ABAB和的边缘表中,和是相互独立的=,1,2,1,2,.ijijirjs几种独立性的关系,,.ABC(1)相互独立任意两个联合独立于第三个变量(2),.CABACBABC给定时,和条件独立联合独立于给定时,和条件独立ABACBCB和是边缘独立的,(3)和联合独立于和是边缘独立的,.五各种独立性的检验方法.1检验函数ˆ.ijkijkijknmn为观测频数,为理论频数的估计22111ˆ-Qˆrstijkijkijkijknmm()021.HQfrst2如果成立,渐近服从自由度为-需要独立估计的概率数目的分布01:,,:,,HABCHABC(1)相互独立,不相互独立1111,2),(1,2,),(1,2,).1ijrstkijkijkirjskt需估计(因为1112frstr-)(s-trstrst()+(-1),ijkijk用计算1111,1rstijkijk因为01:,:,.HABCHABC(2)联合独立与,不联合独立与1,2,1,2,),(1,2,).ijkirjskt需估计(11(1)(1)frstrs-ttrs()+(-1),ijkijk用计算(-1)+(-1).rst需估计的参数数目为.2计算ˆˆ.ijkijkijkijkijknmnmn理
本文标题:2.5列联表的独立性检验
链接地址:https://www.777doc.com/doc-3456664 .html