您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 生物统计学―卡方检验
第五章卡方检验应用统计学卡方(c2)分布设总体服从正态分布N~(μ,σ2),X1,X2,…,Xn为来自该正态总体的样本,则样本方差s2的分布为将c2(n–1)称为自由度为(n-1)的卡方分布)1(~)1(222nsnc主要适用于对拟合优度检验和独立性检验,以及对总体方差的估计和检验等选择容量为n的简单随机样本计算样本方差S2计算卡方值c2=(n-1)S2/σ2计算出所有的c2值不同容量样本的抽样分布c2n=1n=4n=10n=20m总体卡方(c2)分布卡方(c2)分布的特点不同容量样本的抽样分布c2n=1n=4n=10n=201、c2分布是一个以自由度n为参数的分布族,自由度n决定了分布的形状,对于不同的n有不同的卡方分布2、卡方分布于区间[0,),是一种非对称分布。一般为正偏分布3、卡方分布的偏斜度随自由度降低而增大,当自由度为1时,曲线以纵轴为渐近线;当自由度增大的时,分布曲线渐趋近左右对称,当自由度大于等于30的时候,卡方分布接近正态分布4、卡方分布具有“可加性”X、Y独立,X~c2(n1),Y~c2(n2)则X+Y~c2(n1+n2)卡方(c2)分布的函数CHIDIST:自由度为n的卡方分布在x点处的单尾概率CHIINV:返回自由度为n的卡方分布的单尾概率函数的逆函数xP2cCHIDISTX需要计算分布的数字(X0)Degrees_freedom自由度CHIINVProbability卡方分布的单尾概率Degrees_freedom自由度c2检验是以c2分布为基础的一种假设检验方法,主要用于分类变量,根据样本数据推断总体的分布与期望分布是否有显著差异,或推断两个分类变量是否相关或相互独立。卡方检验基础c2值的计算:22()AEEc由英国统计学家KarlPearson首次提出,故被称为Pearsonc2。卡方检验基础检验某个连续变量的分布是否与某种理论分布一致,如是否符合正态分布等检验某个分类变量各类的出现概率是否等于指定概率检验两个分类变量是否相互独立,如吸烟是否与呼吸道疾病有关检验控制某种或某几种分类变量因素的作用之后,另两个分类变量是否独立,如上例控制年龄、性别之后,吸烟是否与呼吸道疾病有关检验两种方法的结果是否一致,如两种诊断方法对同一批人进行诊断,其诊断结果是否一致卡方检验基础-用途卡方检验的用途一个样本方差和总体方差是否相同同质性检验适合性检验独立性检验观察值和理论值是否符合两个或两个以上因素之间是否相关计数资料和属性资料一个样本方差的同质性检验从标准正态总体中抽取k个独立u2之和为卡方c2其c2服从自由度为(k-1)的卡方分布22221mmcxx当用样本平均数估计总体平均数时,有:2221xxc将样本方差代入,则:222)1(csk卡方函数的使用假设假设222020,:cc,其否定区为:适用右尾检验H2122020,:cc,其否定区为:适用左尾检验H假设22222122020,:cccc和其否定区为:,适用双尾检验H例:已知某农田受到重金属污染,经抽样测定铅浓度分别为:4.2,4.5,3.6,4.7,4.0,3.8,3.7,4.2(ug/g),方差为0.150,试检验受到污染的农田铅浓度的方差是不是和正常浓度铅浓度的方差(0.065)相同分析:1)一个样本方差同质性检验2)事先不知道受污染的农田与正常农田的铅浓度方差的大小,故双尾检验(2)选取显著水平05.0解:(1)假设即受到污染的农田铅浓度的方差与正常农田铅浓度的方差相同,对065.0:20H065.0:2AH(3)检验计算15.16065.0150.018)1(222csk(4)推断:当df=8-1=7,由CHIINV(0.025,7)=16.01,即2025.02cc否定H0,接受HA,即样本方差与总体方差试不同质的,认为受到污染的农田铅浓度的方差与正常农田的方差有显著差异卡方检验的原理和方法Pearson定理:当(P1,P2,…,Pk)是总体的真实概率分布时,统计量kiiiinpnpn122c随着n的增加渐近于自由度df=k-1的卡方分布。其中P1,P2,…,Pk为k种不同属性出现的频率,n为样本容量,ni为样本中第i种属性出现的次数,是观测值,记为Oi,pi为第i种属性出现的概率,npi则可以看成理论上该样本第i种属性出现的次数,理论值记为:Ei,即)1(,122kdfEEOkiiiic卡方检验的原理和方法Pearson定理的基本含义:如果样本确实是抽自由(P1,P2,…,Pk)代表的总体,Oi和Ei之间的差异就只是随机误差,则Pearson统计量可视为服从卡方分布反之,如果样本不是抽自由(P1,P2,…,Pk)代表的总体,Oi和Ei之间的差异就不只是是随机误差,从而使计算出的统计量有偏大的趋势因此,对Pearson统计量进行单尾检验(即右尾检验)可用于判断离散型资料的观测值与理论值是不是吻合卡方检验的原理和方法统计假设:H0:观测值与理论值的差异是由随机误差引起HA:观测值与理论值之间有真实差异所以卡方值是度量实际观测值与理论值偏南程度的一个统计量卡方值越小,表明观测值与理论值越接近卡方值越大,表明观测值与理论值相差越大卡方值为0,表明H0严格成立,且它不会有下侧否定区,只能进行右尾检验卡方检验的原理和方法由于离散型资料的卡方检验只是近似地服从连续型变量的卡方分布,所以在对离散型资料进行卡方检验计算的时,结果常常偏低,特别是当自由度df=1时,有较大偏差,为此需要进行矫正:当自由度df1时,与连续型随机变量卡方分相近似,这时可以不做连续性矫正注意:要求各个组内的理论次数不小于5,如某组理论次数小于5,则应把它与其相邻的一组或几组合并,知道理论次数大于5为止kiiiicEEO1225.0c适合性检验适合性检验(吻合性检验或拟合优度检验)步骤:1.提出无效假设,即认为观测值和理论值之间没有差异2.规定显著性水平3.计算样本卡方值4.根据规定的显著水平和自由度计算出卡方值,再和实际计算的卡方值进行比较例:有一鲤鱼遗传试验,以荷包鲤鱼(红色,隐性)与湘江野鲤(青灰色,显性)杂交,其F2获得下表的所列的体色分离尾数,问这一资料的实际观测值是否符合孟德尔一对等位基因的遗传规律?鲤鱼遗传试验F2观测结果分析:1)适合性检验问题2)自由度为(2-1)=1,需要连续性矫正(2)选取显著水平05.0解:(1)假设鲤鱼体色F2性状分离符合3:1对鲤鱼体色F2性状分离不符合3:1:0H:AH体色青灰色红色总数F2观测尾数1503991602(3)检验计算:计算鲤鱼体色的理论值63.3015.0122kiiiicEEOc体色青灰色红色总数F2理论尾数1201.5400.51602(4)推断:由CHIDIST(301.63,1)=1.45E-67,即故应否定H0,接受HA,认为鲤鱼体色F2性状比不符合3:1比率01.063.3012cP(4)推断:由CHIINV(0.025,1)=5.02,即故应否定H0,接受HA,认为鲤鱼体色F2性状比不符合3:1比率05.0,2)1(05.02Pc即cc独立性检验步骤:1.提出无效假设,即认为所观测的各属性之间没有关联2.规定显著性水平3.根据无效假设计算出理论数4.根据规定的显著水平和自由度计算出卡方值,再和计算的卡方值进行比较。如果接受假设,则说明因子之间无相关联,是相互独立的如果拒绝假设,则说明因子之间的关联是显著的,不独立一、2X2列联表的独立性检验设A、B是一个随机试验中的两个事件,其中A可能出现r1、r2个结果,B可能出现c1、c2个结果,两因子相互作用形成4个数,分别以O11、O12、O21、O22表示,即2X2列联表的一般形式c1c2总和r1r2O11O21O12O22R1=O11+O12R2=O21+O22总和C1=O11+O21C2=O12+O22T一、2X2列联表的独立性检验2X2列联表的卡方检验步骤:1、提出无效假设H0:事件A和B无关,即事件A和B相互独立,同时给出HA:事件A和B有关联关系2、给出显著水平3、依据H0,可以推算出理论值,计算卡方值4、进行推断例:现随机抽样对吸烟人群和不吸烟人群是否患有气管炎病进行了调查,其调查结果如下表,试检验吸烟与患气管炎病有无关联?不同人群患气管炎病调查分析:1)独立性检验问题2)自由度为df=(2-1)*(2-1)=1,需要连续性矫正(2)选取显著水平05.0解:(1)假设吸烟与患气管炎无关对吸烟与患气管炎有关联:0H:AH不同人群患病不患病总和Ri吸烟人群50250300不吸烟人群5195200总和Cj55445T=500(3)检验计算:计算联表中的各项的理论次数174.235.0122kiiiicEEOc不同人群患病不患病总和Ri吸烟人群33267300不吸烟人群22178200总和Cj55445T=500(4)推断:由CHIDIST(23.174,1)=1.48E-6,即故应否定H0,接受HA,认为吸烟与患气管病极显著相关01.0174.232cP(4)推断:由CHIINV(0.025,1)=6.63,即故应否定H0,接受HA,认为吸烟与患气管炎病密切相关05.0,2)1(05.02Pc即cc二、rXc列联表的独立性检验rXc列联表是指r2,c2的计数资料,一般形式如下rXc列联表的一般形式12…c总和12…rO11O21…Or1O12O22…Or2…………O1cO2c…OrcR1R2总和C1C2…CcT二、rXc列联表的独立性检验rXc列联表中各项理论频率的计算方法如2X2列联表,即:Eij=(RiCj/T),由于自由度df=(r-1)(c-1),由于r2,c2,故自由度df1,因而不需要进行连续性矫正,其计算公式如下:122jiijCROTc例:某医院用碘剂治疗地方性甲状腺肿,不同年龄的治疗效果如下表,试检验不同年龄的治疗效果有无差异?不同年龄用碘剂治疗甲状腺肿效果比较分析:1)独立性检验问题2)自由度为df=(4-1)*(3-1)=6,不需要连续性矫正(2)选取显著水平05.0解:(1)假设治疗效果与年龄无关对治疗效果与年龄有关:0H:AH年龄治愈显效好转无效总和11~306791059131~5032232047950岁以上101123549总和109435314219(3)检验计算:计算联表中的各项的理论次数年龄治愈显效好转无效总和11~3045.2917.8720.025.829131~5039.3215.5119.125.057950岁以上24.399.6211.863.1349总和109435314219988.46122jiijCROTc(4)推断:由CHIDIST(46.988,6)=1.88E-8,即故应否定H0,接受HA,认为治疗效果与年龄极显著相关01.0174.232cP卡方(c2)检验的函数CHITEST:相关性检验函数,得到相关性的概率值CHITESTActual_range观察值的数据区域Expected_range行列汇总的乘积与总计值之比率的数据区域不同年龄用碘剂治疗甲状腺肿效果比较年龄治愈显效好转无效总和11~306791059131~5032232047950岁以上101123549总和109435314219计算联表中的各项的理论次数年龄治愈显效好转无效总和11~3045.2917.8720.025.829131~5039.3215.5119.125.057950岁以上24.399.6211.863.1349总和109435314219Actual_rangeExpected_rangeCHITEST=3.81E-8课后作业书上84页:习题5.5
本文标题:生物统计学―卡方检验
链接地址:https://www.777doc.com/doc-3442484 .html