您好,欢迎访问三七文档
医学统计学(3)季聪华2012.10.11概率分布参数估计与假设检验EPIDATA数据管理软件概率分布第一节正态分布第二节二项分布和Poisson分布第三节抽样分布第一节正态分布正态分布是生物医学和统计学上极其重要的一种分布,医学研究的很多指标都服从或近似服从正态分布。在统计学上,很多分布都是由正态分布导出,同时正态分布又是多种分布的极限分布。一、正态分布的概念正态分布(normaldistribution):是描述连续型随机变量最重要的分布。其分布曲线叫正态分布曲线,呈中间高,两边低,左右基本对称的“钟型”曲线,又称高斯分布(Gaussdistribution)。正态分布由德国数学家Gauss在描述误差分布时所发现,并加以推广,所以通常称为高斯分布(Gaussdistribution)。高斯10马克的钱币∞+∞,21=)(222/)-(XeπσXfσμX总体均数总体标准差正态分布的公式μ和σ是正态分布的两个参数,μ和σ决定了x的概率分布;习惯上用N(μ,σ2)表示均数为μ,标准差为σ的正态分布。二、正态分布的特征(1)集中性:正态分布是一条单峰分布,高峰位置在均数处。(2)对称性:正态分布以均数为中心,左右完全对称。(3)正态分布曲线的形态取决于两个参数,即总体均数μ和总体标准差σ。(4)正态分布曲线下的面积分布具有一定的规律性。当σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动,所以μ叫正态曲线N(μ,σ2)的位置参数,。1.位置参数:μ正态分布位置随参数μ变换示意图00.10.20.30.40.50.60.70.80.9-6-5-4-3-2-10123456Xf(X)σ=1σ=1.5σ=22.形状参数:σ正态分布形态随参数σ变换示意图当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭,σ叫正态曲线N(μ,σ2)的形状参数。三、正态分布面积分布规律(1)正态分布曲线与横轴所夹面积为1。(2)区间在(μ-σ,μ+σ)内的面积或概率为0.683,此区间之外概率为0.317,左右两侧各0.1585。(3)区间在(μ-1.96σ,μ+1.96σ)内的面积或概率为0.95,此区间之外概率为0.05,左右两侧各0.025。(4)区间在(μ-2.58σ,μ+2.58σ)内的面积或概率为0.99,此区间之外概率为0.01,左右两侧各0.005。•正态分布应用于以下3个方面:1.制定医学参考值范围2.质量控制3.统计方法的理论基础四、正态分布的应用1.制定医学参考值范围参考值范围(referencerange):指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定方法:制定参考值范围时,首先要确定一批样本含量足够大的“正常人”。测量样本人群相应指标的值,测量的过程中要严格控制各种误差。而后根据指标的实际用途确定单侧或双侧界值,根据研究目的和使用要求选定适当的百分界值,常用95%。单侧临界值:标准正态分布单侧尾部面积等于α时所对应的正侧变量值,记作Zα。双侧临界值:标准正态分布双侧尾部面积之和等于α时所对应的正侧变量值,记作Zα/2。正态分布法百分位数法单侧单侧参考值范围(%)双侧下限上限双侧下限上限90SX64.1±SX1.28-SX1.28+P5~P95P10P9095SX96.1±SX64.1-SX64.1+P2.5~P97.5P5P9599SX58.2±SX2.33-SX2.33+P0.5~P99.5P1P99以不同的方法计算参考值范围:举例1:调查某地120名健康女性血红蛋白,直方图显示其分布近似正态,均数X=117.4,标准差S=10.2,试估计该地健康女性血红蛋白的95%参考值范围。解析:1.分布近似正态2.过高过低均为异常3.求上、下界值正态分布法求参考值范围设定双侧界值)/(39.137=2.10×96.1+4.117=96.1+lgsx上界:)/(41.97=2.10×96.1-4.117=96.1-lgsx下界:所以,该地健康女性血红蛋白的95%参考值范围是(97.41,137.39)g/l。举例2:某地调查120名健康成年男性的第一秒肺通气量得均数X=4.2(L),标准差S=0.7(L),试据此估计其第一秒肺通气量的95%参考值范围。解析:1.分布近似正态2.仅过低为异常3.求下界值正态分布法求参考值范围单侧下限下界:所以,该地健康成年男子第一秒肺通气量的95%参考值范围为不低于3.05(L)。05L.3=7.0×64.1-2.4=64.1-SX2.质量控制基本原理:许多临床检验指标,当影响某一指标的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,则往往服从正态分布。质量控制领域的“3σ原则”:其意义是指正常情况下检测误差服从正态分布,根据正态分布的曲线面积或概率分布理论可知,3σ之外的观察值出现的概率不到3‰,如果超过这一值,则提示测量或产品质量有问题。统计学规定:以x为中心线,x±2S为警戒线,x±3S为控制线,根据以上的规定还可以绘制出质量控制图。中心线警戒线控制线控制线警戒线3.统计方法的理论基础t分布、F分布、x2分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。第二节二项分布和Poisson分布变量类型为二分类时,变量均现为两个对立的可能结果,每个个体的观察结果只能取其中之一,这类变量需按二项分布(binomialdistribution)规律进行统计分析。毒性试验:白鼠死亡——生存临床试验:病人治愈——未愈临床化验:血清阳性——阴性事件成功(A)——失败(非A)这类“成功─失败型”试验称为Bernoulli试验。一、二项分布(一)二项分布的概念若一个随机变量X的可能取值是k=0,1,…,n,且相应的取值的概率为:P(X=k)=knknkππ)1()(则称此随机变量X服从以n、为参数的二项分布,记为X~B(n,)。【例3-1】临床上用针灸治疗某型头痛,有效率为60%,现以该法治疗3例,其中2例有效的概率是多大?有效的概率是0.6无效的概率是0.43人接受针灸治疗后的有效和无效的所有可能组合,就排列方式而言有8种;如只计算有效或无效的数目而不考虑其顺序时,则只有4种组合。又由于结果是独立的,病例间互不影响,则根据概率的乘法法则可以计算各种排列的连乘概率,再根据概率的加法法则,可以算出无效数或有效数分别为0、1、2、3时的概率。SPSS计算•(二)二项分布的特征1.二项分布的均数与标准差若X~B(n,π),则X的均数X=nX的方差2X=n(1-)X的标准差X=()ππn-12.二项分布的累积概率的计算(1)至多有m例阳性的概率:P(X≤m)=P(0)+P(1)+….P(m)(2)至少有m例阳性的概率:P(X≥m)=1-P(X≤m-1)【例3-2】大样本研究显示,某中药制剂不良反应发生率为5%,现随机抽取5人服用此药,试求:①其中m个人(m=0、1、2、3、4、5)有反应的概率。②至多有2人有反应的概率。③有人有反应的概率。至多有2人反应的概率:P(X≤2)=P(0)+P(1)+P(2)有人反应的概率:P(X≥1)=1-P(0)SPSS计算PDF.BINOM(m,5,0.05)总体发生率抽样人数发生数•PDF.BINOM(quant,n,prob)。数值。返回当每次试验的成功概率是prob时,n次试验中的成功次数将等于quant的概率。当n为1时,这等同于PDF.BERNOULLI。CDF.BINOM(m,5,0.05)总体发生率抽样人数发生数•CDF.BINOM(quant,n,prob)。数值。返回n次试验(每次成功的概率为prob)中成功次数将小于等于quant的累积概率。当n为1时,这等同于CDF.BERNOULLI。3、二项分布的图形和正态近似(1)二项分布的图形:如果已知n和π,则按二项分布概率公式可计算出不同的X取值时的概率,我们可以用X为横轴,取值概率P为纵轴,可绘制出二项分布的图形。不难发现,二项分布的图形是一个离散型分布,其形状决定于两个参数n和π,当π为0.5时,图形对称;当π不等于0.5时,图形呈偏态,但当样本量增大时,图形逐渐趋于对称。4812160240246481216X0.00.10.20.30.4n=20=0.5n=5=0.3n=10=0.3n=30=0.3P(X)SPSS演示二项分布图概念•(2)二项分布的正态近似:根据统计学上的中心极限定理,当n较大,且nπ与n(1-π)较接近时,二项分布将接近于正态分布。当n趋向无穷大时,二项分布B(n,π)的极限分布就是正态分布N[nπ,nπ(1-π)。一般地说,如果nπ与n(1-π)大于5时,即可用正态分布近似原理处理二项分布问题,以简化计算。(三)二项分布的应用•在应用二项分布时,必须注意其应用条件:(1)二项分布中的观察单位数通常是事先确定的。(2)各观察单位只有互相对立的两种结果,如成功与失败、生存和死亡等。(3)若两种对立结果中的一种结果(阳性)的概率为π,则其对立结果的概率为1-π。实际工作中总体概率π往往是未知的,但可以从大量观察中获得的比较稳定的样本频率作为总体概率的估计值。(4)n个观察单位的观察结果相互独立。即观察单位之间发现的结果不能互相影响,如要求疾病无传染性、无家族聚集性。【例3-3】大样本调查显示,新生儿畸形发生率为1%,现随机调查某地500名新生儿,其中只有1例发生畸形,问该地新生儿畸形发生率是否低于一般。首先计算500名新生儿发生1例畸形的概率P(X≤1)=P(0)+P(1)=0.0398说明当地至多发生1例畸形的概率是0.0398,小于0.05,是小概率事件。所以可以认为当地新生儿畸形发生率不等于1%。互相之间的高与低,通过1/500=0.0020.01得出比较结论。SPSS计算二、Poisson分布(一)Poisson分布的概念•当二项分布中n很大,p很小时,二项分布就变成为Poisson分布,所以Poisson分布实际上是二项分布的极限分布。Poisson分布为稀有(罕见)事件概率分布,主要用于生物医药研究中描述单位时间、单位空间上某事件的发生数。如每毫升水中大肠杆菌的发生数,新生儿出生缺陷、多胞胎、染色体变异发生数等,与二项分布的区别在于发生数很低,而样本数又很大时,这时用Poisson分布来计算概率能简化计算。Poisson分布主要用于描述在单位时间(空间)中稀有事件的发生数。(二)Poisson分布的特征1.Poisson分布的均数与标准差Poisson分布的总体均数即为单位时间(或单位面积、空间)内某随机事件的平均发生数,可以用μ来表示,值得注意的是Poisson分布的标准差为,也就是说总体均数和总体方差是相等的,μ=σ2。2.Poisson分布的图形和正态近似因为Poisson分布只有一个参数,如果已知总体均数μ,就可以计算出Poisson分布的概率分布值,我们可以用X为横轴,取值概率P为纵轴,可绘制出Poisson分布的图形。(三)Poisson分布的应用由于Poisson分布是二项分布的极限分布,因此二项分布的应用条件也是Poisson分布的应用条件。值得注意的是,Poisson分布的适用场合还要求观察单位数n很大,且事件发生的概率很小,特别是罕见事件,如某些发病率极低的疾病。本例中:n=500,π=0.01,μ=nπ=500*0.01=5计算实际发生1例与总体均数5例相等的概率是多少?【例3-3】大样本调查显示,新生儿畸形发生率为1%,现随机调查某地500名新生儿,其中只有1例发生畸形,问该地新生儿畸形发生率是否低于一般。SPSS计算•CDF.POISSON(quant,mean)。数值。返回泊松分布(指定了均值或比率参数)中的值将小于等于quan
本文标题:医学统计(03)
链接地址:https://www.777doc.com/doc-4226511 .html