您好,欢迎访问三七文档
常用离散型变量概率分布及应用二项分布和泊松分布张合喜公共卫生学院第一节二项分布和总体率的估计一、二项分布(一)二项分布的概念在生命科学研究中,经常会遇到一些事物,其结果可分为两个彼此对立的类型,如一个病人的死亡与存活、动物的雌与雄、微生物培养的阳性与阴性等,这些都可以根据某种性状的出现与否而分为非此即彼的对立事件。这种非此即彼事件构成的总体,就称为二项总体(binomialpopulation)。第一节二项分布和总体率的估计二项分布(binomialdistribution)就是对这种只具有两种互斥结果的离散型随机变量的规律性进行描述的一种概率分布。由于这一种分布规律是由瑞士学者贝努里(Bernoulli)首先发现的,又称贝努里分布。二项分布有两个基本假设:1.各事件是相互独立的,即任一事件的发生与否,不影响其它事件的发生概率;2.各个随机事件只能产生相互排斥的两种结果。定理:几个相互独立事件同时发生的概率等于各独立事件的概率之积。定理:在几个互不相容的事件中,任一事件发生的概率等于这几个事件的概率之和。抓中两黑一白的概率:P(2)=3×0.125=0.375抓中三个黑球的概率:P(3)=0.5×0.5×0.5=0.125各种可能发生的结果对应的概率相当于展开后的各项数值,即:前例:π=0.8,1-π=0.2,n=3nnxxnnnnnxnxnn)1()1()1(])!(!/[!)1()]1([113211233)2.0()2.0()8.0(3)2.0()8.0(3)8.0(]2.08.0[二项分布的概率公式如果一个事件A,在n次独立试验中,每次试验都具有概率π,那么,这一事件A将在n次试验中出现x次的概率为:式中:称二项系数。)!(!!xnxnCxn)......3,2,1(,)1()(nxCxPxnxxn(二)二项分布的应用条件1.各观察单位只能具有互相对立的一种结果,属于二项分类资料;2.已知发生某一结果的概率为π,其对立结果的概率则为1-π。实际工作中要求π是从大量观察中获得的比较稳定的数值;3.n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的结果。(三)二项分布的性质1.二项分布的均数和标准差二项分布的平均数:μ=nπ上式的意义:做n次独立试验,某事件平均出现的次数为nπ次,这一结果较为符合人们的直观想法。如果,生男孩这一事件的概率是1/2,则100个新生儿中可期望有nπ=100×1/2=50个是男孩。当用率表示时,µ=π(三)二项分布的性质二项分布的标准差:标准差表示x取值的离散度或变异的大小。如n=5,π=5/6,1-π=1-5/6,则:)1(n8333.061655)1(n(三)二项分布的性质二项分布的标准误若以比值或百分数表示,则标准误为:σp被称为率的标准误(standarderrorofrate),用来反映随机抽样获得的样本率p与总体π之间的抽样误差大小。np)1((三)二项分布的性质二项分布的标准误若以比值或百分数表示,则标准误为:实际工作中常用p作为π的估计值,得:np)1(nppsp)1((三)二项分布的性质2.二项分布的累计概率常用的有左侧累计和右侧累计2种方法。从阳性率为π的总体中随机抽取n个个体,则(1)最多有k例阳性的概率P(x≤k)=P(0)+P(1)+……+P(k)(2)最少有k例阳性的概率P(x≥k)=P(k)+P(k+1)+……+P(n)=1-P(x≤k-1)(三)二项分布的性质3.二项分布的图形二项分布的图形,取决于两个方面,其一为事件发生的概率π,其二为样本含量n。当π=1-π=1/2时,二项分布的图形是对称的;当π1/2时,二项分布的图形呈左偏态;当π1/2时,二项分布的图形呈右偏态;当π与1-π不变时,即使π≠1-π,但随着n的增大,二项分布的的偏态程度会逐渐降低而趋于对称。n=5050100150200250300350400450012345其他频率n=10050100150200250300350012345678其他频率n=200501001502002500246810其他频率n=30050100150200250036912其他频率二项分布总体不同样本例数时的抽样分布二、二项分布的应用(一)、总体率的估计有点值估计和区间估计。1查表法:当n较小,如n≤50时,特别是p很接近于0或1时,可由附表6百分率的置信区间表直接查出。P709orp817例:某地对13名输卵管结扎的育龄妇女经壶腹部吻合术后,观察其受孕情况,发现有6人受孕,据此估计该吻合术妇女的受孕的95%可信区间此例:n=13,x=6查表得95%CI为:19%~75%。二、二项分布的应用(一)、总体率的估计1查表法:附表6百分率的置信区间表直接列出了X≤n/2的部分。其余部分可以查n-x的阴性部分的QL~QU再相减得PLandpUPL=1-QL1-QU例:某地调查50名儿童蛔虫感染情况,发现有10人大便中有蛔虫卵,问儿童蛔虫感染率的95%置信区间是多少?此例:n=50,x=10查表得95%CI为:10%~34%。二项分布的应用2正态近似法:应用条件:np及n(1−p)均≥5p±uαsp例:在某地随机抽取329人,做HBsAg检验,得阳性率为8.81%,求阳性率95%置信区间。已知:p=8.81%,n=329,故:95%CI:8.81±1.96×1.56;即5.75%~11.87%。%56.10156.0329/)0881.01(0881.0/)1(nppsp二项分布下表是用P±Uasp时要求的P值与N的大小参考数字。PnnP0.530150.450200.380240.2200400.1600600.05140070二项分布的应用(二)差异的显著性检验1直接法例某医院用甲药治疗某病,其治愈率为70%,今用乙药治疗该病10人,治愈9人,问甲乙两药疗效有无差别?已知:π=0.7,1-π=0.3,假设两药疗效无差别,则治愈与非治愈的概率应符合二项分布,即:10]3.07.0[)]1([n如果甲乙两药疗效无差别,按甲药的治愈率(70%)用乙药治疗10人应治愈7人,实际治愈9人,相差2人。双侧检验,计算相差±2人及2人以上的总概率,即x≥9和x≤5的概率之和:ΣP=0.000006+0.000138+0.001447+0.009002+0.036757+0.102919+0.121061+0.028248=0.299577或:ΣP=1-(0.200121+0.266828+0.233474)=0.299577028248.0121061.0233474.0266828.0200121.0102919.0036757.0009002.0001447.0000138.0000006.0)3.0()7.0()3.0()7.0()3.0()7.0()3.0()7.0()3.0()7.0()3.0()7.0()3.0()7.0()3.0()7.0()3.0()7.0()3.0()7.0()3.0()7.0(]3.07.0[010101019910288103771046610555106441073310822109111010001010CCCCCCCCCCCP=0.2995770.05,差异无统计学意义,尚不能认为乙药疗效优于甲药。本例如采用单侧检验,即要求判断乙药疗效优于甲药?此时只需计算相差2人及以上的总概率:ΣP=P(9)+P(10)=0.121061+0.028248=0.149309P0.05,差异无统计学意义,尚不能认为乙药疗效优于甲药。3.研究疾病的家族聚集性例某单位发生乙肝暴发流行,经调查4口之家共288户,其中无病例的167户,发生1例的51户,2例的50户,3例的17户,全家发病的3户,问乙肝的发病是否具有家族集聚性?π=214/1152=0.1858,1-π=0.8142计算发病数x=0,1,2,3,4时的理论概率和理论户数。列表,比较实际户数与理论户数差别有无显著性意义。二项分布展开计算表发病人数展开式概率理论户数实际户数xCxnπx(1-π)n-xPT=P×288A0C04(0.1858)0(0.8142)40.4395126.571671C14(0.1858)1(0.8142)30.4011115.52512C24(0.1858)2(0.8142)20.137339.54503C34(0.1858)3(0.8142)10.02096.02174C44(0.1858)4(0.8142)00.00120.353二项分布拟合优度的χ2检验发病人数实际户数理论户数(A-T)2(A-T)2xATT0167126.571634.5812.91151115.524162.8336.0425039.54109.412.773176.02120.5620.03430.357.0220.06χ2=91.81,按ν=组数-2=5-2=3查χ2界值表得:χ20.01(3)=11.345,故P0.01,说明该疾病的家庭分布不符合二项分布,可以认为该病有家族集聚性。kknknppc)1((五)群检验用于混合样本分析:常见于阳性率很低或检出率低的分析样本根据二项分布的原理:1份混合样本中含有k份阳性的概率为P(k)=nnknpppcp)1()1()0(0当k=0时P(0)是说混合样品中没有1阳性样品的原始概率,反映的是混合样品阴性的概率npp)0()1((五)群检验当收集的样本数量很大时,全部检验费时费力可以用群检验的方法进行解决,若每个标本的阳性概率为π,则其阴性概率为Q=1-πQm便是某个群m个标本均为阴性的概率,一个群为阴性的群的概率,而1-Qm就为一个群阳性的概率。假设受检的n个群中有X个阳性群,用x/n作为阳性群概率的估计值(五)群检验1-Qm=X/n从而Q=√P=1-Q第四节泊松分布(Poissondistribution)一、Poisson分布(一)泊松分布的概念泊松分布(旧译普哇松分布)是离散型随机变量的另一重要分布,最早由S.D.Poisson于1837年提出。定义:若离散型随机变量x的取值为非负整数,且相应的概率函数为:则称随机变量X服从泊松分布。eXXPX!)(,......2,1,0x泊松分布(Poissondistribution)泊松分布的数学表达式:在n个取样单位内,出现X=0,1,2,…,n个阳性事件的理论概率分别为下列公式的展开各项:式中:P(X)为出现阳性事件例数为X的理论概率。实际应用时,可以用样本均数作为总体均数μ的估计值。!)(xeXPx(二)Poisson分布的应用条件在二项分布中,如果π很小,而试验次数n很大,nπ趋向于一个常数μ时,则可以用参数为μ的泊松分布近似地表示。泊松分布还有其独特的意义,它对于描述随机现象在大面积(时间、空间)上的分布情况很有用。例如在单位面积的水中的细菌数的分布,计数室中细菌数的分布,放射性物质在单位时间内放射次数的分布等都属于泊松分布。泊松分布(Poissondistribution)服从泊松分布的条件与二项分布一样,其中之一是各事件相互独立。例如,某一昆虫是否落入,某人是否患某病与他人是否患病无关等。如果不符合这一条件就不呈泊松分布。因此,也可以用泊松分布来研究某些疾病是否有家族聚集性、传染性等。(三)Poisson分布的性质1.Poisson分布是一种单参数的离散型分布,其参数为μ,它表示单位时间或空间内某事件平均发生的次数,又称强度参数。(三)Poisson分布的性质2.Poisson分布的均数和方差相等对于符合泊松分布的资料,其n很大,而π很小,因此,泊松分布的平均数为:μ=nπ当π→0,(1-π)→1时,泊松分布的标准差为:也就是说
本文标题:二项分布与泊松分布
链接地址:https://www.777doc.com/doc-7121977 .html