您好,欢迎访问三七文档
卡方检验2内容安排•卡方检验入门•配对设计两样本率比较的χ2检验•行列表资料的分析•确切概率法3概述•卡方检验是以卡方分布为基础的一种常用假设检验方法,主要用于分类变量,它的基本的无效假设是:–H0:行分类变量与列分类变量无关联–H1:行分类变量与列分类变量有关联–=0.05–统计量,其中Ai是样本资料的计数,Ti是在H0为真的情况下的理论数(期望值)。221()kiiPiiATT4卡方检验–在H0为真时,实际观察数与理论数之差Ai-Ti应该比较接近0。所以在H0为真时,检验统计量服从自由度为k-1的卡方分布。即:,拒绝H0。上述卡方检验由此派生了不同应用背景的各种问题的检验,特别最常用的是两个样本率的检验等。22,Pv221()kiiPiiATT5概述表使用含氟牙膏与一般牙膏儿童的龋患率牙膏类型患龋齿人数未患龋齿人数调查人数龋患率(%)含氟牙膏70(76.67)130(123.33)20035.00一般牙膏45(38.33)55(61.67)10045.00合计11518530038.33更一般地,可将上述表格记为一般形式,称之为四格表(fourfoldtable)。因为表中a、b、c和d四个格子的数据是基本的,其余数据均可从这四个数据派生出来。6方法原理•理论频数–基于H0成立,两样本所在总体无差别的前提下计算出各单元格的理论频数来牙膏类型患龋齿人数未患龋齿人数调查人数龋患率(%)含氟牙膏70(76.67)130(123.33)20035.00一般牙膏45(38.33)55(61.67)10045.00合计11518530038.33nnnTCRRC7方法原理•残差–设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差被称为残差•残差可以表示某一个类别观察值和理论值的偏离程度,但残差有正有负,相加后会彼此抵消,总和仍然为0。为此可以将残差平方后求和,以表示样本总的偏离无效假设的程度。8方法原理•另一方面,残差大小是一个相对的概念,相对于期望频数为10时,20的残差非常大;可相对于期望频数为1000时20就很小了。因此又将残差平方除以期望频数再求和,以标准化观察频数与期望频数的差别。–这就是我们所说的卡方统计量,在1900年由英国统计学家Pearson首次提出,其公式为:22211()()kkiiiiiiiiAEAnpEnp9方法原理•从卡方的计算公式可见,当观察频数与期望频数完全一致时,卡方值为0;•观察频数与期望频数越接近,两者之间的差异越小,卡方值越小;•反之,观察频数与期望频数差别越大,两者之间的差异越大,卡方值越大。•当然,卡方值的大小也和自由度有关10方法原理•卡方分布–显然,卡方值的大小不仅与A、E之差有关,还与单元格数(自由度)有关chi-square38.1936.1834.1732.1630.1528.1426.1324.1222.1120.1018.0916.0814.0712.0610.058.046.034.022.01.00概率.12.10.08.06.04.020.0011操作步骤•1.建立检验假设和确定检验水准–H0:使用含氟牙膏和一般牙膏儿童龋患率相等–H1:使用含氟牙膏和一般牙膏儿童龋患率不等•2.=0.05•3.计算检验统计量2值82.267.6167.615533.3833.384533.12333.12313067.7667.76702222212操作步骤•3.确定P值和作出推断结论–查附表2界值表,得p0.05。按=0.05水准,不拒绝H0,尚不能认为使用含氟牙膏比使用一般牙膏儿童的龋患率低。13操作步骤•值得指出,成组设计四格表资料的2检验与前面学习过的两样本率比较的双侧u检验是等价的。若对同一资料作两种检验,两个统计量的关系为2=u2。其对应的界值也为平方关系。两者的应用条件也是基本一致的,连续性校正也基本互相对应。14四格表2值的校正•英国统计学家Yates认为,2分布是一种连续型分布,而四格表资料是分类资料,属离散型分布,由此计算的2值的抽样分布也应当是不连续的,当样本量较小时,两者间的差异不可忽略,应进行连续性校正(在每个单元格的残差中都减去0.5)–若n40,此时有1T5时,需计算Yates连续性校正2值–T1,或n40时,应改用Fisher确切概率法直接计算概率15为比较某新药与传统药物治疗脑动脉硬化的疗效,临床试验结果见下表,问两种药物的疗效有无差异?表两种药物治疗脑动脉硬化的疗效处理措施有效无效合计有效率()新药组41(38.18)3(5.82)4493.18传统药物组18(20.82)6(3.18)2475.00合计5996886.76配对设计两样本率比较的χ2检验17方法原理•用A、B两种方法检查已确诊的乳腺癌患者140名,A法检出91名(65%),B法检出77名(55%),A、B两法一致的检出56名(40%),问哪种方法阳性检出率更高?B法A法+-合计+56(a)35(b)91-21(c)28(d)49合计776314018方法原理•显然,本例对同一个个体有两次不同的测量,从设计的角度上讲可以被理解为自身配对设计•按照配对设计的思路进行分析,则首先应当求出各对的差值,然后考察样本中差值的分布是否按照H0假设的情况对称分布•按此分析思路,最终可整理出如前所列的配对四格表19方法原理•注意–主对角线上两种检验方法的结论相同,对问题的解答不会有任何贡献–另两个单元格才代表了检验方法间的差异•假设检验步骤如下:–H0:两法总体阳性检出率无差别,即B=C–H1:两法总体阳性检出率有差别,即BC20方法原理根据H0得b、c两格的理论数均为Tb=Tc=(b+c)/2,对应的配对检验统计量为:1,)(22cbcb一般在b+c40时,需用确切概率法进行检验,或者进行校正。行列表资料的分析22例用某新药治疗不同类型关节炎的疗效如表,问该药治疗不同类型关节炎的疗效是否有差别?表三种不同类型关节炎的临床疗效关节炎类型有效无效合计类风湿性关节炎9718115风湿性关节炎372057骨性关节炎141731合计1485520323分析步骤•建立假设–H0:三种不同类型关节炎的疗效相同–H1:三种不同类型关节炎的疗效不全相同•求出统计量•下结论确切概率法25分析实例–注意:确切概率法不属于2检验的范畴,但常作为2检验应用上的补充。例研究某新药治疗原发性高血压的疗效,并用常规治疗药物作为对照组,结果见下表,问新药疗效与对照组疗效有无差别?表某新药治疗原发性高血压的疗效分组有效无效合计有效率()试验组20(a)8(b)2871.43对照组2(c)6(d)825.00合计22143661.1126分析实例•1.建立检验假设和确立检验水准–H0:新药组与对照组疗效相等,即1=2–H1:新药组与对照组疗效不等,即12•2.计算概率和确定P值–本例n=3640,不满足2检验的应用条件,宜采用四格表确切概率法。27方法原理•在四格表周边合计不变的条件下,在相应的总体中进行抽样,四格表中出现各种排列组合情况的概率–本例即28、8、22、14周边合计保持保持不变的条件下,若H0成立,计算出现各种四格表的概率!!!!!)!()!()!()!(ndcbadbcadcbaP28方法原理表在四格表周边合计不变的条件下,1=2时的概率分布计算d0123456*78P(d)0.01060.07890.22440.31680.24200.10190.02290.00250.0001累计概率0.01060.08950.31380.63060.87260.97450.99740.99991.0000*本例现有样本情况d=6。•然后将其中小于等于现有样本概率的概率值相加,即为P值:–本例中P值=P(0)+P(6)+P(7)+P(8)=0.03610.0529一点补充•确切概率法的原理具有通用性,对于四格表以外的情况也适用,如行乘列表、配对、配伍表格均可•对于较大的行乘列表,确切概率法的计算量将变得十分惊人,有可能超出硬件系统可以支持的范围
本文标题:8-卡方检验1
链接地址:https://www.777doc.com/doc-3097988 .html