您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第六章二项与泊松分布
医学统计学福医卫生统计系林征2013.11第六章.二项与泊松分布ChapterVI.Binomial&PoissonDistribution1一、二项分布(binomialdistribution)在日常生活中有很多我们接触到的随机现象,往往恰好有且只有两个可能结果,例如:◇观察对象情况:得病—未得◇病人临床试验:治愈—未愈◇血清临床化验:阳性—阴性◇白鼠毒性试验:死亡—生存当然这一切都可以简化为成功(Success)与失败(Failure)两种结果。即在两种结果中指定我们有兴趣的,并将之称为成功,另外一种结果称为失败。这样的变量称为二分类变量.贝努利实验每个观察对象的结果有且只有上述两种相互排斥的结果中的一种每个观察对象阳性结果(success)发生的概率均稳定为p,阴性结果的发生概率均稳定为(1-p)各个观察对象的结果是相互独立的.满足上述3个条件的n次试验构成的序列称为贝努利(Bernoulli)试验序列Bernoulli试验为了纪念瑞士数学家JacobBernoulli(1654-1705),人们又把上述重复的每次试验称为Bernoulli试验.二项分布的定义如果随机事件的发生满足贝努利试验条件那么,重复观察n次,发生阳性结果的次数X的概率分布就是二项分布,记为X~B(n,p)。x=0,1,2……n的概率为P(x)即x~B(n,p)单位数为阳性为观察单位数式中)(,)!(!!,)1()(successxnxnCCxPxnxnxxnxnpp设某毒理试验采用白鼠共3只,毒物的致死率为p显然该情况符合贝努利试验:1、每只鼠有且只有生存与死亡两种状态;2、每只鼠的死亡或生存的结局是相互独立的;3、每只鼠死亡的可能性均为p,生存的可能性均为1p。因而,这三只鼠的药物毒理试验便构成一个贝努利试验系列(重复了3次).当鼠的死亡可能性p=0.3时0只动物死亡,样本死亡频率f为0/3=0;其出现概率为1只动物死亡,样本死亡频率f为1/3≈0.33;其出现概率为2只动物死亡,样本死亡频率f为2/3≈0.67;其出现概率为3只动物死亡,样本死亡频率f为3/3=1;其出现概率为0033(0)0.3(10.3)0.343PXC2213(2)0.3(10.3)0.189PXC3303(3)0.3(10.3)0.027PXC1123(1)0.3(10.3)0.441PXC二项分布的图形特征以上述老鼠毒理试验结果为例,分别给出死亡数x=0、1、2、3时的概率,作图如右如果在保持总体率不变的情况下,增多观察例数(从3例→5例→20例→100例)试描述分布图形的改变情况二项分布的图形特征如果在保持观察例数不变(n=20)的情况下,改变总体率(从0.1→0.3→0.5→0.7→0.9)试描述分布图形的改变情况二项分布的图形特征二项分布的图形取决于n和p,最高峰出现在np处;所有情况概率之和为1当n较小,且p远离0.5时,图形是偏态的当n较大,或者p接近0.5时,图形趋于对称在实际应用中,只要n足够大,p不接近0也不接近1时(特别是当np与n(1p)均大于等于5时),二项分布B(n,p)就接近正态分布二项分布的图形特征二项分布的阳性数的均数与标准差如果随机事件满足贝努利试验条件则称随机事件的阳性数x满足二项分布B(n,p)阳性数x的均数与标准差又是多少?阳性数的均数与标准差均数E(x)(或mx):标准差Var(x)(或sx):xnmp()1xnspp样本率的均数与标准差样本率的均数E(p)(或mp):样本率的标准差Var(p)(或sp):pmp()1pnpps样本率的抽样分布(samplingdistributionofrate)样本率的总体均数等于总体率样本率的标准差(即率的标准误)反映率的抽样误差由于总体率通常是未知的,因而用样本率p来估计p,故率的标准误的估计值常表示为pmp(1)pnpps(1)(1)1pppppsnn二项分布的应用:概率估计根据以往的经验,一般的胃溃疡患者有13%发生胃出血的症状,现某医生随机收集患者7例,其中2例发生胃出血的可能性有多大?()().(.).2272720131013018PxC二项分布的应用:累积概率估计根据以往的经验,一般的胃溃疡患者有13%发生胃出血的症状,现某医生随机收集患者150例,其中至多有20例发生胃出血的可能性有多大?出现10~20例胃出血的可能性有多大?P(x≤20)=P(x=20)+P(x=19)+P(x=18)+……+P(x=0)P(10≤x≤20)=P(x=10)+P(x=11)+……+P(x=20)二项分布的应用:累积概率估计不论P(x≤20)或P(10≤x≤20),在n较大的时候计算诸如是很麻烦的例如本题,可以通过电脑软件计算,快速准确的得出:P(x≤20)=60.6745546630915%P(10≤x≤20)=60.2432821318786%能否使用简单的方法计算累积概率呢?20150C二项分布的应用:累积概率估计二项分布的正态近似回顾二项分布的图形特征,当np与n(1p)均大于等于5时),二项分布B(n,p)就接近正态分布该正态分布的均数为二项分布的均数mx,标准差为二项分布的标准差sx即:观察阳性数x~N(np,np(1-p))二项分布的正态近似法计算累积概率根据以往的经验,一般的胃溃疡患者有13%发生胃出血的症状,现某医生随机收集患者150例,其中至多有20例发生胃出血的可能性有多大?()()().().......().%2015001320012150013101301203841045220547820548PxPuPuuPuPx查表得曲线下面积为0.4522,所以,即与前面用软件直接计算的累积概率(60.67%)接近其中出现10~20例胃出血的可能性有多大?()()()......().%102020150013101500131500131013150013101310205374PxPuPuPx查表得0.5374;即与前面用软件直接计算的累积概率(60.24%)也接近二项分布的正态近似法计算累积概率二项分布应用:总体率的可信区间与总体均数的可信区间相同,率的可信区间的含义同样也是:按照一定的可信度(95%或99%)确定的包含未知总体率的可能范围不过由于样本中阳性数的取值满足的是二项分布,所以计算样本所来源的总体率也必须从二项分布入手例如样本率p=0.25,样本含量为n=20,阳性发生数x=5,求总体率的95%可信区间?假设存在一个很小的总体率p1,使得从20个观察对象中得到5个以及以上阳性数的可能性不为小概率事件(在这里小概率事件=0.025),用数学表达式表达为:x~B(20,p)且有p(x≥5)0.025,求p最小不得小于多少?图示如下阳性数20191817161514131211109876543210概率值.4.3.2.10.0在当前总体率的情况下,出现p(x≥5)的情况看起来不是小概率事件,即:p(x≥5)2.5%或p(x≤4)97.5%软件计算的累积概率结果:总体率pP(x≥5)…………0.1000.0430.0900.0290.0800.0180.0700.011…………可见未知总体率95%CI的下限介于0.090与0.080之间,实际计算的结果是0.087附近:当n=20,p=0.087,p(x≥5)=0.0255;如果总体率小于0.087,那么p(x≥5)的值就会小于0.025,在一次抽样的情况几乎不会发生,所以p不可小于0.087同理假设存在一个很大的总体率p2,使得从20个观察对象中得到5个以及以下阳性数的可能性不算小概率事件,用数学表达式表达为:x~B(20,p)且有p(x≤5)0.025,求p最大不得大于多少?图示如下阳性数20191817161514131211109876543210概率值.2.10.0在当前总体率的情况下出现p(x≤5)的情况看起来不是小概率事件,p(x≤5)2.5%软件计算的累积概率结果:总体率pP(x≤5)…………0.4800.0310.4900.0260.5000.0210.5100.017…………可见未知总体率95%CI的上限介于0.49与0.50之间,实际计算的结果是0.491附近:当n=20,p=0.491,p(x≤5)=0.02502;如果总体率大于0.491,那么p(x≤5)的值就会小于0.025,在一次抽样的情况几乎不会发生,所以p不可大于0.491总体率的可信区间所以当样本含量为n=20,阳性发生数x=5,总体率的95%可信区间为(0.087~0.491)因为不但要求累积概率,还要不断的尝试,所以求该区间的手工计算量十分庞大统计学家已经绘制了一张表格,方便我们直接查找!——附表6总体率的可信区间的正态近似法当np与n(1-p)均大于5且n足够大时,样本率p的抽样分布近似正态,可以写为p~N(p,sp2)此时,计算p的95%CI的方法就和前面介绍的标准正态分布法求总体均数的可信区间相似总体率的1a可信区间为/2(1);此处用近似pppppusnas例6-3用某药物治疗非传染性疾病患者100名,有效55例,求该药物总体有效率的95%可信区间?解:(1)595%:(1)1.9645.26%~64.74%由于样本含量较大,而且有与均大于,所以可以考虑用正态近似法求总体率的npnpCIpppn二项分布应用:单样本率假设检验例如:已知某地40岁以上成年男性高血压患病率为10%,经健康教育数年后,随机抽取该地成年男性50名,查出高血压患者3例,患病率为6%。问经健康教育后,该地成年男性高血压患病率是否有降低?单样本率假设检验(单侧)本题的问题是该地的患病情况是否较以前下降假设总体患病率没有下降,那么现在该地的高血压患病率仍为10%;那么从中得到一个比当前样本率6%还要极端的情况概率是否是一个小概率事件?如果是小概率事件,则原假设有问题,因为小概率事件不太可能在一次抽样中发生,因而拒绝它;反之,如果不是小概率事件,那么尚不拒绝它。HHxBpxpxpxpxpxpxC001033503500.05()50~(50,0.1)(3)(3)(2)(1)(0)(3)0.1(10.1):该地的高血压患病情况与以往相同():该地的高血压患病情况较以往低()单侧根据原假设,在人中发生高血压的人数x服从二项分布,记为:;从该群体中抽样发生阳性人数为3人以及比它更少的概率为二项分布的累积概率:ppppaCCC22502115015050115015000.1(10.1)0.1(10.1)0.1(10.1)=0.139+0.078+0.029+0.005=0.250=0.05H在的水准上,尚不拒绝,尚不认为该地高血压的患病率较以往降低a例6-5:已知常规药物对某非传染性疾病的有效率为0.6;研究者用新药物治疗10例,发现有效9例,能否据此认为新药的疗效与常规药物不同。与单侧检验不同的是,此处的目的在于发现二者是否存在不同;此时的P值为发生几率低于当前的所有情况概率之和即分别计算x=0至10时的概率,找出所有发生概率不高于当前的情形,将这些概率累积得到P值单样本率假设检验(双侧)00100010010111011022102100.05()~(10,0.)(=0)0.6(10.6)=0.000105(=1)0.6(10.6)=0.001573(=2)0.6(10.6)=0.010617(=3)HHxBpxCpxCpxCpxppppa:新药与常规药物的疗效相同():二者疗效不同()双侧根据原假设,有效人数x
本文标题:第六章二项与泊松分布
链接地址:https://www.777doc.com/doc-2087626 .html