您好,欢迎访问三七文档
2011级预防医学专业《医学统计学》沈月平副教授,PhD医学部公共卫生学院流行病与卫生统计教研室E-mail:shenyueping@suda.edu.cmOffice:401-140312015/10/12第五章参数估计前言第一节抽样误差第二节t-分布和二项分布第三节单个总体参数的置信区间第四节两总体之差的置信区间小结作业2计量资料的统计分析统计描述统计推断集中趋势离散趋势参数估计假设检验CVSRSQQLU,,,,2点估计,区间估计两样本均数比较t,u-test多个样本均数比较F-testMGX,,计数资料的统计分析统计描述统计推断集中趋势离散趋势参数估计假设检验绝对数,相对数率的标准误Sp点估计,区间估计两样本率比较χ2-test多个样本率比较χ2-test第一节抽样误差抽样误差(samplingerror):由抽样造成的统计量与总体参数及样本统计量之间的差别称为抽样误差。均数抽样误差和率的抽样误差是建立在抽样研究基础上所发生的偏差,只能减小,不可避免5一、均数的抽样误差由于随机抽样所引起的样本均数与总体均数之间的差异或样本均数之间的差异;如何评估抽样误差?6如何评估抽样误差?抽样试验(samplingtrial)7抽样试验某市2008年19岁女生身高服从均数μ=160.5cm,σ=5.2cm的正态分布;从X~N(160.5,5.22)的正态总体中随机抽样,样本含量nj=20,g=100;共抽100次;图1.2008年某市19岁女生身高均数N(160.5,5.22)的抽样示意XjSjμ=160.5cmσ=5.2cmX1,X2,X3…Xj…,160.19,1.05158.97,1.39160.37,1.47:161.64,1.44100个新的分布特点10X样本均数组成一个新的分布特点各样本均数未必等于总体均数;各样本均数间存在差异;样本均数的分布很有规律;100个样本均数的均数为160.43cm,而原总体均数为160.5cm()样本均数的变异范围较原变量的变异范围大大缩小;标准差为1.18(5.2);XcmnXXS162.1202.5中心极限定理若原变量服从正态分布,则新变量服从正态分布;若原变量不服从正态分布,n较大(大于等于30或50),则新变量服从正态分布;n较小,新变量为非正态分布;标准误:估计抽样误差大小的指标标准误(standarderror,SE):样本统计量的标准差;样本均数的标准误(standarderrorofmean,SEM):;样本均数的标准误的估计值:nXnSSX例2000年某研究者随机调查某地健康成年男子27人,得到血红蛋白含量的均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。LgnSSx/89.22715均数标准误的含义反映均数抽样误差大小的一个指标;均数的标准误与原分布的标准差成正比,与抽样样本量n开根号成反比;欲减少抽样误差,可增加样本量;利用均数标准误可以进行总体均数的置信区间的估计和假设检验。nX/第二节t分布t分布的由来t分布的图形和特征t界值表标准正态变换Xu,X0,1uXXusXXtX,Xt变换0t抽样实验t分布的由来Xt分布图形的演变FREQUENCY0200t50MIDPOINT(n=50)-5.0-4.5-4.0-3.5-3.0-2.5-2.0-1.5-1.0-0.50.00.51.01.52.02.53.03.54.04.55.0t分布图形的演变FREQUENCY0200t3MIDPOINT(n=3)-12.0-11.5-11.0-10.5-10.0-9.5-9.0-8.5-8.0-7.5-7.0-6.5-6.0-5.5-5.0-4.5-4.0-3.5-3.0-2.5-2.0-1.5-1.0-0.50.00.51.01.52.02.53.03.54.04.55.05.56.06.57.07.58.08.59.09.510.010.511.011.512.0英国统计学家Gosset于1908年以笔名“Student”发表了一篇论文,提出了t分布(distribution)的理论,因此t分布又称为学生氏t分布,其分布密度函数是:(1)22(1)2()(1)(2)tft其中,为伽玛函数符号,它是已知函数;π为圆周率;ν表示自由度。)(24t分布图形的特征f图5-3不同自由度下的t分布图-5-4-3-2-1012345V=∞V=5V=1单峰分布,以0为中心,左右对称只有一个参数ν(自由度n-1),ν越小,则t值越分散,峰部越矮而尾部翘得越高当ν逼近∞时,t分布逼近u分布t分布图形下面积具有规律性总面积为1;任意两区间的面积都可以用积分的方法求出;当单双侧确定时,自由度ν确定时,尾部面积(α)与横轴t值之间有一一对应的关系;tα/2,ν表示双侧尾部面积为α,自由度为ν时的t界值;tα,ν表示单侧尾部面积为α,自由度为ν时的t界值;t界值表的特点(P410)表示在单双侧确定时,自由度ν确定时,t界值越大,外围面积(P)越小;反之亦然;单双侧确定时,外围面积(α或P)确定时,自由度ν越大,t界值越小,当ν→∞时,t=u;t0.05/2,∞=1.96;t0.01/2,∞=2.58第三节单个总体参数的置信区间(二)区间估计(intervalestimation)按预先给定的概率(1-α)确定的包含未知总体参数的可能范围。(一)点估计:用样本统计量直接作为总体参数的估计值1、σ已知/2xunxunxun单侧:双侧:或一、总体均数的置信区间(一)正态分布法nsux2/nsuxnsux2、σ未知,但样本例数n足够大时(n50)双侧:单侧:或(一)正态分布法xstx,xstx,3、σ未知时,n不是很大(最常用)双侧:xxstxstx,2/,2/xstx,2/~单侧:或(二)t分布法例5.332置信区间的含义表示以一定的置信区间(1-α)估计总体均数(参数)可能的波动范围;总体均数95%CI(confidenceinterval)表示随机抽样100次(n固定),计算100个置信区间,平均有95个区间包含总体均数,有5个不包含;但对一次抽样来讲,只能说是包含或不包含95%CI与99%CI的区别点估计与置信区间的差别正常参考值范围与置信区间的差别33二、二项分布(Binomialdistribution)与率的置信区间例5-6有实验白鼠三只,作某种毒物一定剂量的毒性试验,结果为死亡记作事件A,死亡概率P(A)=为一已知常数,试验后3只白鼠死亡x只,则x为一离散型随机变量,可能取值为有限个,即为0,1,2,3,取这些值的概率如表5-6表5-63只白鼠各种实验结果及其发生概率死亡数存活数试验结果X3-X甲乙丙试验结果概率X取值概率kkkCXP33)1()(03生生生(1-π)(1-π)(1-π)3003)1()0(CXP12死生生π(1-π)(1-π)2113)1()1(CXP生死生(1-π)π(1-π)生生死(1-π)(1-π)π21死死生ππ(1-π)1223)1()2(CXP死生死π(1-π)π生死死(1-π)ππ30死死死πππ0333)1()3(CXP注:表中kCk33,k=0,1,2,3Bernoulli试验以A表示所感兴趣的事件,A事件发生称为“成功”,不出现称为“失败”。相应的这类试验称作为“成一败型”试验或Bernoulli试验。Bernoulli试验满足条件(1)每次试验结果只能是两个互斥结果之一(A或非A)。(2)每次试验的条件不变,每次试验结果A事件发生的概率为常数。(3)各次试验独立,即每次试验出现事件A的概率与前面各次试验出现的结果无关。二项分布的概念n次重复独立试验(Bernoulli试验),当每次试验的“阳性概率”保持不变时,出现“阳性”的次数k=0,1,2…,n的一种概率分布。,k=0,1,2,…nn为试验例数,k为阳性次数,π为阳性率,knkknkxP)()(1)!!(!knknkn])1()1()1(1[]1[11nknknnnknnn)(当n和不同时,二项分布的概率是不同的,所以说n和是二项分布的两个重要参数。如果随机变量x服从以n和为参数的二项分布,则记作x~B(n,)。二项分布的概率计算恰好有k例阳性数的概率为最多发生k例,即xk的累计概率为最少发生k例,即xk的累计概率二项分布概率的递推公式为knkknkxP)()(1kiixPkxP0)()(nkiixPkxP)()()(11)1(kxpkknkxp二项分布的性质1、二项分布的均数和方差若xB(n,)则有:x的均数µx=nπx的方差x2=nπ(1-π)x的标准差(1)Xn例5-8例5-6中假设=0.4,求试验后3只白鼠死亡数x的均数和方差。解:n=3和=0.4x的均数2.14.03xx的方差72.04.014.032)(xx的标准差85.06.04.03x2、二项分布的正态近似(normalapproximation)0.000.080.12n=10=0.3012345678910x0.000.040.0801020x0.000.040.080.16x01020n=20=0.50.120.000.080.160.240.320.40x012345xP(x)n=5=0.3P(x)P(x)0.280.240.200.160.04n=30=0.30.12P(x)0.16概率论中的中心极限定理证明:当n足够大时,且不接近于0也不接近于1时,且n和n(1-)≥5,二项分布x~B(n,)近似于正态分布N(n,)。)1(n样本率的分布和正态近似(1)样本率的分布从一阳性率为的总体中随机抽取样本容量为n的样本,如果满足二项分布的条件则样本阳性数x服从x~B(n,)二项分布。样本阳性率nxp也应服从p~B(n,)分布,即:xnxxnxPpP)1()()(。可以推导出:样本率p的总体均数xpn1样本率p的总体标准差nnxp)(11样本率的分布和正态近似例5-X从阳性率样本率=0.6的总体中随机抽取样本量为16的样本,求样本率p的均数和标准差。样本均数的标准差称为均数的标准误。同样样本率的标准差也称为率的标准误,它描述了样本率抽样误差的大小。样本率的分布和正态近似样本率分布的正态近似当样本量n较大,总体率不接近于0也不接近1时,且n和n(1-)≥5,样本阳性率也近似服从正态分布p~N(,)。事实上,总体率,一般是不知道的,往往用p来估计,用样本率的标准误的估计值来估计。pSpp(1)pppsn利用样本资料可估计二项分布总体概率的1-置信区间,一般取0.05或0.01。对于,且接P近于0或1时,可直接查表得到总体概率的(1-)置信区间。例5.550n总体率的置信区间查表法当n足够大,且P和1-P均不太小,如nP和n(1-P)均大于5时,P的抽样分布逼近正态分布。此时,可根据正态分布的特性计算总体率的置信区间。22(,)pppZSpZS总体率的置信区间正态近似法np)1((1)pppSn率的抽样误差,即标准误例
本文标题:第五章 参数估计
链接地址:https://www.777doc.com/doc-3169184 .html