您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 几种离散型变量的分布及其应用
第六章几种离散型变量的分布及其应用DistributionandApplicationofDiscreteVariableBinomialdistributionPoissondistribution随机变量有连续型和离散型之分,相应的概率分布就可分为连续型分布和离散型分布。有关连续型分布如正态分布、t分布和F分布等在前面的章节中已作了介绍。本章主要介绍在医学中较为常用的离散型分布,即二项分布、Poisson分布。第一节二项分布二项分布(binomialdistribution)是指在只会产生两种可能结果如“阳性”或“阴性”之一的n次独立重复试验(常常称为n重Bernoulli试验)中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2,…,n的一种概率分布。在医学中类似如这种n重Bernoulli试验的情形较为常见。如用某种药物治疗某种疾病,其疗效分为有效或无效;在动物的致死性试验中,动物的死亡或生存;接触某种病毒性疾病的传播媒介后,感染或非感染等。若从阳性率(死亡率、感染率等)为π的总体中随机抽取大小为n的样本,则出现阳性数为X的概率分布即呈二项分布,记为X~B(n,π).二项分布有两个参数:总体率样本含量记作:X~B(n,π)n在n个独立的个体中出现X个阳性的概率可由下式求出:!()(1)0,1,2,,!()!XnXnPXXnXnX)(XP实际上就是二项函数n)1(展开式中的通项,式中的)!(!!XnXn称为二项系数。总有:nxXP01)(。例6-1某种药物治疗某种非传染性疾病的有效率为0.70。今用该药治疗该疾病患者10人,试分别计算这10人中有6人、7人、8人有效的概率。本例n=10,π=0.70,X=6,7,8。按公式(6-1)计算相应的概率为0.200126106)70.01(70.0)!610(!6!10)6(P7107)70.01(70.0)!710(!7!10)7(P0.266838108)70.01(70.0)!810(!8!10)8(P0.23347一、二项分布的适用条件和性质(一)二项分布的适用条件1.每次试验只会发生两种对立的可能结果之一,即分别发生两种结果的概率之和恒等于1;2.每次试验产生某种结果(如“阳性”)的概率π固定不变;3.重复试验是相互独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。在上面的例6-1中,对这10名非传染性疾病患者的治疗,可看作10次独立的重复试验,其疗效分为有效与无效,且每一名患者治疗有效的概率(π=0.70)是恒定的。这样,10人中发生有效的人数X~B(10,0.70)。(二)二项分布的性质1.二项分布的均数与标准差在n次独立重复试验中,出现“阳性”次数X的总体均数为总体方差为总体标准差为n)1(2n)1(n若以率表示,则样本率p的总体均数为总体方差为总体标准差为pnp)1(2np)1(样本率的标准差也称为率的标准误,可用来描述样本率的抽样误差,率的标准误越小,则率的抽样误差就越小。在一般情形下,总体率π往往并不知道。此时若用样本资料计算样本率p=X/n作为π的估计值,则的估计为:pnppSp/)1(2.二项分布的图形对于二项分布而言,当π=0.5时,分布是对称的,见图6-1;图6-1.=0.5时,不同n值下的二项分布当0.5时,分布是偏态的,但随着n的增大,分布趋于对称。当n时,只要π不太靠近0或1,二项分布则接近正态分布,见图6-2。图6-2.=0.4时,不同n值下的二项分布图00.10.20.30.40.50123n=2阳性数XP(X)00.10.20.30.4012345n=5阳性数XP(X)00.10.20.3012345678n=8阳性数XP(X)00.10.20.3012345678910n=10阳性数XP(X)二、二项分布的应用(一)总体率的区间估计1.查表法2.正态近似法1.查表法对于n50的小样本资料,直接查附表6百分率的95%或99%可信区间表,即可得到其总体率的可信区间。例6-2在对13名输卵管结扎的育龄妇女经壶腹部-壶腹部吻合术后,观察其受孕情况,发现有6人受孕,据此资料估计该吻合术妇女受孕率的95%可信区间。本例n=13,X=6。查附表6,取0.05时,在n=13(横行)与X=6(纵列)的交叉处数值为19~75,即该吻合术妇女受孕率的95%可信区间为(19%,75%)。附表6只列出的部分。当时,可先按“阴性”数n-X查得总体阴性率的可信区间QL~QU,再用下面的公式转换成所需的阳性率的可信区间。PL=1-QU,PU=1-QL2nX2nX112.正态近似法根据数理统计学的中心极限定理可得,当n较大、π不接近0也不接近1时,二项分布B(n,π)近似正态分布,而相应的样本率p的分布也近似正态分布。为此,当n较大、p和1-p均不太小,如np和n(1-p)均大于5时,可利用样本率p的分布近似正态分布来估计总体率的可信区间。(,(1))Nnn2(,)pN的可信区间为:如:的95%可信区间为的99%可信区间为22(,)pppuSpuS1(2.58,2.58)pppSpS(1.96,1.96)pppSpS例6-3在观测一种药物对某种非传染性疾病的治疗效果时,用该药治疗了此种非传染性疾病患者100人,发现55人有效,试据此估计该药物治疗有效率的95%可信区间。本例n=100,p=55/100=0.55Sp0.55-1.96×0.0497=0.45260.55+1.96×0.0497=0.6474即该药物治疗有效率的95%可信区间为(45.26%,64.74%)。(1)0.55(10.55)0.0497100pppSn(二)样本率与总体率的比较1.直接法在诸如疗效评价中,利用二项分布直接计算有关概率,对样本率与总体率的差异进行有无统计学意义的比较。比较时,经常遇到单侧检验,即“优”或“劣”的问题。那么,在总体阳性率为π的n次独立重复试验中,下面两种情形的概率计算是不可少的。(1)出现“阳性”的次数至多为k次的概率为:(2)出现“阳性”的次数至少为k次的概率为P(Xk)XnXkXkXXnXnXP)1()!(!!)(00P(Xk)XnXnkXnkXXnXnXP)1()!(!!)(对于双侧检验而言,由于要回答的是“有无差别”,即备择假设H1:ππ0是否成立,因此,所要计算的双侧检验概率P值应为实际样本(记“阳性”次数为k次)出现的概率与更背离无效假设的事件(记“阳性”次数为i次,ik)出现的概率之和,即iiXPkXPP)()(,其中i满足)()(kXPiXP。例6-4据报道,对输卵管结扎了的育龄妇女实施壶腹部-壶腹部吻合术后,受孕率为0.55。今对10名输卵管结扎了的育龄妇女实施峡部-峡部吻合术,结果有9人受孕。问实施峡部-峡部吻合术妇女的受孕率是否高于壶腹部-壶腹部吻合术?显然,这是单侧检验的问题,其假设检验为H0:π=0.55H1:π0.55=0.05对这10名实施峡部-峡部吻合术的妇女,按0.55的受孕率,若出现至少9人受孕的概率大于0.05,则不拒绝H0;否则,拒绝H0,接受H1。本例n=10,π=0.55,k=9。按公式(6-12)有:P(X9)XXXXXXXP10109109)55.01(55.0)!10(!!10)(=0.023257按=0.05水准,拒绝H0,接受H1,即认为实施峡部-峡部吻合术妇女的受孕率要高于壶腹部-壶腹部吻合术。例6-5已知某种非传染性疾病采用甲药治疗的有效率为0.60。今改乙药治疗该疾病患者10人,发现9人有效。问甲、乙两种药物的疗效是否不同?显然,这是双侧检验的问题。记乙药治疗该疾病的有效率为π,其假设检验为H0:π=0.60H1:π0.60=0.05本例n=10,按π=0.60,实际样本阳性数X=9出现的概率由公式(6-1)有9109)60.01(60.0)!910(!9!10)9(XP0.040311比实际样本更背离无效假设的事件,即满足)(iXP0.040311的i(i9)分别有:0、1、2、10。因此,所要计算的双侧检验概率P值为)10()2()1()0()9(XPXPXPXPXPP=0.040311+0.000104858+0.001572864+0.010617+0.006046618=0.0586520.05P0.10,按=0.05水准,不拒绝H0,尚不能认为甲、乙两种药物的疗效不同。2.正态近似法当n较大、p和1-p均不太小,如np和n(1-p)均大于5时,利用样本率的分布近似正态分布的原理,可作样本率p与已知总体率π0的比较。检验统计量u值的计算公式为:npu)1(000例6-6对某疾病采用常规治疗,其治愈率为45%。现改用新的治疗方法,并随机抽取180名该疾病患者进行了新疗法的治疗,治愈117人。问新治疗方法是否比常规疗法的效果好?本例是单侧检验,记新治疗方法的治愈率为π,而π0=0.45。其假设检验为H0:π=0.45H1:π0.45=0.05本例n=180,p=117/180=0.65查u界值表(t界值表中为∞的一行)得单侧。按а=0.05水准,拒绝H0,接受H1,即新的治疗方法比常规疗法的效果好。0005.0P394.5180)45.01(45.045.065.0u(三)两样本率的比较两样本率的比较,目的在于对相应的两总体率进行统计推断。设两样本率分别为p1和p2,当n1与n2均较大,且p1、1-p1及p2、1-p2均不太小,如n1p1、n1(1-p1)及n2p2、n2(1-p2)均大于5时,可利用样本率的分布近似正态分布,以及独立的两个正态变量之差也服从正态分布的性质,采用正态近似法对两总体率作统计推断。检验统计量u的计算公式为:2121ppSppu)11)(1(212121212121nnnnXXnnXXSpp例6-7为研究某职业人群颈椎病发病的性别差异,今随机抽查了该职业人群男性120人和女性110人,发现男性中有36人患有颈椎病,女性中有22人患有颈椎病。试作统计推断。记该职业人群颈椎病的患病率男性为π1,女性为π2,其检验假设为H0:π1=π2H1:π1≠π2=0.05本例n1=120,X1=36,p1=X1/n1=36/120=0.30;n2=110,X2=22,p2=X2/n2=22/110=0.20)11011201)(11012022361(110120223621ppS=0.05730573.020.030.0u=1.745查u界值表得0.05P0.10。按=0.05水准,不拒绝H0,即尚不能认为该职业人群颈椎病的发病有性别差异。(四)研究非遗传性疾病的家族集聚性非遗传性疾病的家族集聚性(clusteringinfamilies),系指该种疾病的发生在家族成员间是否有传染性?如果没有传染性,即该种疾病无家族集聚性,家族成员患病应是独立的。此时以家族为样本,在n个成员中,出现X个成员患病的概率分布呈二项分布;否则,便不服从二项分布。例6-8某研究者为研究某种非遗传性疾病的家族集聚性,对一社区82户3口人的家庭进行了该种疾病患病情况调查,所得数据资料见表6-1中的第(1)、(2)栏。试分析其家族集聚性。表6-1患病数据资料与二项分布拟合优度的2c检验X(1)实际户数A(2)概率P(X)(3)理论户数T=82P(X)(4)AT(5)2)(AT(6)TAT2)((7)0260.1326
本文标题:几种离散型变量的分布及其应用
链接地址:https://www.777doc.com/doc-3368156 .html