您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 非参数统计-第5章分类数据的关联分析
第5章分类数据的关联分析本章内容本章要求掌握分类数据的独立性研究方法;区分分类数据的独立性和齐性检验的异同;掌握Fisher检验与卡方检验的应用条件的异同;了解Ridit方法和应用;了解对数线性模型和卡方检验的异同;熟练应用R语言中的相关命令学习如上方法。5.1列联表和独立性检验nAAAA;12rBBBB.nAB12sLL一随机实验的个结果,对应的变量的取值为,,,变量的取值为,,,现将这个结果按变量和变量的取值组合构建一张rs型列联表。ABAB设和是与实验结果有关的两个变量,希望判断和是否相互独立。2rs(,),ijijpPAABB令分别为A和B的边缘概率.若A和B独立,或者A和B之间没有关联,则A和B的联合概率应该等于A和B的边缘概率的乘积,假设检验问题:0..1..:.:.ijijijijHpppHpppijpp和当取大值,或者p-值很小的时候,拒绝零假设。独立性检验2零假设下,时,2srijij2j1i1ij(nm)m22(r1)(s1)2构造统计量:...ijijijnnmn其中5ijmblood=c(98,38,289,67,41,262,13,8,57,18,12,30)blood=matrix(blood,nrow=4,byrow=T)#如果想按照行填入矩阵blood[,1][,2][,3][1,]9838289[2,]6741262[3,]13857[4,]181230chisq.test(blood)Pearson'sChi-squaredtestdata:bloodX-squared=15.0734,df=6,p-value=0.01969R程序要检验不同变量之间是否独立,频率过小的点不能太多.Siegel和Castellan(1988)指出行数和列数至少其一要超过2,频数低于5个的单元格数不能超过20%,不能充许存在频数小于1的单元格上一节是利用列联表分析两个因素之间是否独立.当其中一个因素换成区组时,对应的问题是检验实验数据在不同区组上的分布是否一致,这类检验问题称为齐性检验.检验方法和独立性检验相同。5.2齐性检验假设检验问题:构造Pearson统计量:22(r1)(s1)在零假设下近似有:jiijijjiijijijneneenQ,..2,2)()(.....ijijnnen其中01.11,...,,:...:iiriirHpppH等式不全成立22Jane_Austen=c(147,186,101,83,25,26,11,29,32,39,15,15,94,105,37,22,59,74,28,43,18,10,10,4)Jane_Austen=matrix(Jane_Austen,nrow=6,byrow=T)chisq.test(Jane_Austen)Pearson'sChi-squaredtestdata:Jane_AustenX-squared=45.5775,df=15,p-value=6.205e-05例5.2R程序R程序TV_lover=c(83,70,45,91,86,15,41,38,10)TV_lover=matrix(TV_lover,nrow=3,byrow=T)chisq.test(TV_lover)Pearson'sChi-squaredtestdata:TV_loverX-squared=18.6508,df=4,p-value=0.00092035.3Fisher精确检验Pearson检验要求频数低于5个的单元格数不能超过20%.对于22列联表,只要有一格数据小于5,就不能满足要求.因此有必要采用别的方法.Fisher精确检验(Fisher’sexacttest)就是其中之一.下面以22列联表为例介绍Fisher精确检验2n..n.1总和n2.n1.n12总和n22n.2n11n211B2B1A2A2*2列联表111221221..12..21..12..211122122{,,,|,,,,}!!!!!!!!!Pnnnnnnnnnnnnnnnnnn假设边缘频数和总频数都是固定的.在因数A和因数B独立的零假设之下,服从超几何分布:11122122,,,nnnn事实上,4个格点中只要一个数确定了,其它3个会随着而定,因此也可以表示为:R语言和EXCEL软件的调用函数分别为比如行总数依次为5,3,列总数依次为3,5时,所有可能的表为其R语言调用函数为1..12..2111..12..2..11122122!!!!{|,,,,}!!!!!nnnnPnnnnnnnnnnn0514233230211203HYPGEOMDIST(n11,n1.,n.1,n)dhyper(n11,n.1,n.2,n1.,log=FALSE)dhyper(k,3,5,5,log=FALSE)dhyper(0,3,5,5,log=FALSE)[1]0.01785714dhyper(1,3,5,5,log=FALSE)[1]0.2678571dhyper(2,3,5,5,log=FALSE)[1]0.5357143dhyper(3,3,5,5,log=FALSE)[1]0.17857140514233230211203以上四种表格的概率依次为:检验任何一个格子中的的数目(我们只要考虑就可以了)都不会过小或者过大,如果过小或者过大,相应的概率会很小,是小概率事件,因而可以拒绝零假设。当大样本时,还可以采用近似正态分布进行检验,即:11nk112212211.2..1.2()(0,1)nnnnnZNnnnn111..12..2111..12..2{|,,,,}{|,,,,}PnknnnnnPnknnnnn和R程序medicine=c(8,2,7,23)medicine=matrix(medicine,nrow=2,byrow=T)fisher.test(medicine)Fisher'sExactTestforCountDatadata:medicinep-value=0.002429alternativehypothesis:trueoddsratioisnotequalto195percentconfidenceinterval:1.856547143.340082sampleestimates:oddsratio12.12648sum=0for(kin8:10)sum=sum+dhyper(k,15,25,10,log=FALSE);sum[1]0.0024286dhyper(8,15,25,10,log=FALSE)用卡方检验,出现警告信息medicine=c(8,2,7,23)medicine=matrix(medicine,nrow=2,byrow=T)chisq.test(medicine)Pearson'sChi-squaredtestwithYates'continuitycorrectiondata:medicineX-squared=8,df=1,p-value=0.004678Warningmessage:Inchisq.test(medicine):Chi-squaredapproximationmaybeincorrect5.4Mantel-Haenszel检验前面介绍的Pearson独立性(齐性)检验和Fisher精确性检验都是针对两因素的检验,若影响因素有三个,或者两因素之外还要考虑层次的影响,或者单因素还要考虑区组和层次影响,则可以利用Mantel-Haenszel检验,用于某两个因素之间是否有关联.比如产品研究中,需要研究城市和农村两个层次的人群对产品或服务的是否满意;比如,由于不同医院(相当于不同层次)收治的病人不同,需要在不同医院中研究不同治疗方案对病人的治疗效果的差异性.2检验以医院为例,令h=1,2,….,k代表k家医院(k个层次),表示h层四格列联表观测频数,表示第h家医院观测的病案总频数,n为所有k家医院的病案总频数.假设检验问题为:实验组与对照组在治疗效果上没有差异;实验组与对照组在治疗效果上有差异;将病案总频数构成一个三维列联表,其中第h层的列联表如下hijnhn01H:H:nhnh.1总和nh2.nh1.nh12合计nh22nh.2nh11nh21有效无效实验组对照组QMH统计量QMH统计量对于小样本,可以直接查表,也可以利用R语言.2kh11h11h1MHkh11h1h1h1h1h1h2h2h11h112hhh[nE(n)]Q,var(n)nnnnnnE(n)var(n)nnn其中,(-1)例5.4R程序求解HA=c(50,15,92,90)HB=c(47,135,5,60)HA=matrix(HA,nrow=2,byrow=T)HB=matrix(HB,nrow=2,byrow=T)m=c(HA,HB)x=array(m,c(2,2,2))mantelhaen.test(x)Mantel-Haenszelchi-squaredtestwithcontinuitycorrectiondata:xMantel-HaenszelX-squared=21.9443,df=1,p-value=2.807e-06alternativehypothesis:truecommonoddsratioisnotequalto195percentconfidenceinterval:2.0801676.099585sampleestimates:commonoddsratio3.562044统计决策以上得到的Mantel-Haenszel检验的结果为:通过检验,说明治癌药与效果有强关联(oddsratio=3.562044),即治癌药有效果.对于大样本,QMH统计量近似服从自由度为1的卡方分布,参见定理5.1.因此还可以利用卡方分布计算p值.Mantel-Haenszel检验方法消除了层次因素对结果的影响,从而提高了检验出来的关联性的可靠性.本例中,还可以对各层分别利用前面介绍的关联性检验:fisher.test(HA),fisher.test(HB),chisq.test(HA),chisq.test(HB)6MHQ21.9443,p2.80710,值fisher.test(HA)Fisher'sExactTestforCountDatadata:HAp-value=0.0002323alternativehypothesis:trueoddsratioisnotequalto195percentconfidenceinterval:1.6515796.690462sampleestimates:oddsratio3.245835fisher.test(HB)Fisher'sExactTestforCountDatadata:HBp-value=0.001391alternativehypothesis:trueoddsratioisnotequalto195percentconfidenceinterval:1.55012614.070352sampleestimates:oddsratio4.158592chisq.test(HA)Pearson'sChi-squaredtestwithYates'continuitycorrectiondata:HAX-squared=12.5737,df=1,p-value=0.0003912chisq.test(HB)Pearson'sChi-squaredtestwithYates'continuitycorrectiondata:HBX-square
本文标题:非参数统计-第5章分类数据的关联分析
链接地址:https://www.777doc.com/doc-6159625 .html