您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 总体均数的估计与假设检验
1第三章总体均数的估计与假设检验第二军医大学卫生统计学教研室张罗漫2均数的抽样误差与标准误t分布总体均数的估计t检验假设检验的注意事项正态性检验和两样本方差比较的F检验讲课内容3第一节均数的抽样误差与标准误4了解总体特征的最好方法是对总体的每一个体进行观察、试验,但这在医学研究实际中往往不可行。对无限总体不可能对所有个体逐一观察,对有限总体限于人力、财力、物力、时间或个体过多等原因,不可能也没必要对所有个体逐一研究(如对一批罐头质量检查)。借助抽样研究。5欲了解某地18岁男生身高值的平均水平,随机抽取该地10名男生身高值作为样本。由于个体变异与抽样的影响,抽得的样本均数不太可能等于总体均数,造成样本统计量与总体参数间的差异(表现为来自同一总体的若干样本统计量间的差异),称为抽样误差。抽样误差是不可避免的。抽样误差是有规律的。61999年某市18岁男生身高值Xi~N(μ,σ2)μ=167.7cmσ=5.3cm样本号iXiS1167.412.742165.566.573168.205.36·········99169.405.57100165.695.09ni=107样本均数抽样分布具有如下特点:各样本均数未必等于总体均数各样本均数间存在差异样本均数围绕=167.69cm呈正态分布样本均数变异度()较原总体个体值变异度(σ=5.3cm)大大缩小cm69.1SXX89中心极限定理(centrallimittheorem)从均数为、标准差为的总体中独立随机抽样,当样本含量n较大时,样本均数的分布将趋于正态分布此分布的均数为nX标准差为10中心极限定理(centrallimittheorem)若Xi服从正态分布则服从正态分布若Xi不服从正态分布n大(n60):则近似服从正态分布n小(n60):则为非正态分布jXjXjX11样本统计量的标准差称标准误(standarderror,SE)样本均数的标准差称均数的标准误(standarderrorofmean,SEM)nXnSSX12SXS意义描述个体值的离散程度;衡量样本均数对样本个体值的代表性反映抽样误差的大小;衡量样本均数估计总体均数的可靠性计算1n)XX(S2nSSX与均数的关系S越小,X对样本个体值的代表性越好XS越小,X估计的可靠性越大与n的关系n→∞,S→n→∞,XS→0应用计算变异系数均数的假设检验计算标准误估计的可信区间估计参考值范围标准差与标准误的区别13第二节t分布141908年,英国统计学家W.S.Gosset以笔名“Student”在《Biometrics》杂志上发表论文,首次提出t分布概念,后人又称Student’st-distribution,开创了小样本统计推断的新纪元,被认为是统计学发展史上的里程碑之一。15WilliamSeelyGosset(1876~1937,英)16)1,0(N),(N~XXu2t分布的概念)1,0(N)n,(N~XnXu2分布t)n,(N~XnSXt217t分布的图形与特征t分布为一簇单峰分布曲线,不同,曲线形状不同t分布以0为中心,左右对称t分布与有关,越小,t值越分散,t分布的峰部越低,而两侧尾部翘得越高当逼近,逼近,t分布逼近u分布XXSf(t)=∞(标准正态曲线)=5=10.10.2-4-3-2-1012340.3自由度分别为1、5、∞时的t分布t值附表2t界值表概率,P单侧0.250.200.100.050.0250.010.0050.00250.0010.0005自由度双侧0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657127.321318.309636.61920.8161.0611.8862.9204.3036.9659.92514.08922.32731.59930.7650.9781.6382.3533.1824.5415.8417.45310.21512.92440.7410.9411.5332.1322.7763.7474.6045.5987.1738.61050.7270.9201.4762.0152.5713.3654.0324.7735.8936.8691000.6770.8451.2901.6601.9842.3642.6262.8713.1743.3902000.6760.8431.2861.6531.9722.3452.6012.8393.1313.3405000.6750.8421.2831.6481.9652.3342.5862.8203.1073.31010000.6750.8421.2821.6461.9622.3302.5812.8133.0983.3000.67450.84161.28161.64491.96002.32642.57582.80703.09023.2905-tt020t分布曲线下面积与横轴t值间关系(附表2)t界值表中一侧尾部面积称单侧概率(α)两侧尾部面积之和称双侧概率(α/2)t0.05/2,9=2.262,t0.05,9=1.833在相同自由度时,值增大,α减小在相同α时,单尾α对应的t值比双尾α的小t21t0.05/2,9=2.262t0.05,9=1.833-tt0附表2t界值表概率,P单侧0.250.200.100.050.0250.010.0050.00250.0010.0005自由度双侧0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657127.321318.309636.61920.8161.0611.8862.9204.3036.9659.92514.08922.32731.59930.7650.9781.6382.3533.1824.5415.8417.45310.21512.92440.7410.9411.5332.1322.7763.7474.6045.5987.1738.61050.7270.9201.4762.0152.5713.3654.0324.7735.8936.86960.7180.9061.4401.9432.4473.1433.7074.3175.2085.95970.7110.8961.4151.8952.3652.9983.4994.0294.7855.40880.7060.8891.3971.8602.3062.8963.3553.8334.5015.04190.7030.8831.3831.8332.2622.8213.2503.6904.2974.781100.7000.8791.3721.8122.2282.7643.1693.5814.1444.587110.6970.8761.3631.7962.2012.7183.1063.4974.0254.437120.6950.8731.3561.7822.1792.6813.0553.4283.9304.318130.6940.8701.3501.7712.1602.6503.0123.3723.8524.221140.6920.8681.3451.7612.1452.6242.9773.3263.7874.140150.6910.8661.3411.7532.1312.6022.9473.2863.7334.07323第三节总体均数的估计24一、可信区间的概念参数估计是用样本统计量推断总体参数。有点估计和区间估计两种。X点估计是用样本统计量直接估计其总体参数值。如用估计、S估计等。方法虽简单,但未考虑抽样误差大小。区间估计是按预先给定的概率(1),确定一个包含总体参数的范围。该范围称为参数的可信区间(confidenceinterval,CI)25预先给定的概率(1)称为可信度(confidencelevel),常取95%或99%。总体参数是未知的、一个固定的值。(所以要用包含来描述)。样本统计量是随机变量。可信区间通常由两个数值构成,称可信限(confidencelimit,CL)。μ可信下限(L)可信上限(U)26二、总体均数可信区间的计算1.单一总体均数的可信区间(1)未知按t分布原理(2)已知或未知但n足够大(如n60)按u分布原理2.两总体均数之差的可信区间271.单一总体均数的1–α可信区间StStX,2X,2X,X双侧(1)未知单侧StStX,X,XX283.641.151110XS0.052,92.262t故该地18岁男生身高均数的95%可信区间为(164.35,169.55)cm。μ=167.7cm双尾例在例3-1中抽得第15号样本的=166.95(cm),S=3.64(cm),求其总体均数的95%可信区间。X166.95±2.262×1.1511=164.35~169.55(cm)291.单一总体均数的1–α可信区间X,2X,2SXXuu或双侧单侧SuuSuuX,X,X,X,XXXX或或(2)已知或未知但n足够大:30例某地抽取正常成年人200名,测得其血清胆固醇均数为3.64mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数95%可信区间。法,用近似正态分布的方60)/(81.3~47.30849.096.164.320020.196.164.3NLmmol312.两总体均数之差的1–α可信区间双侧21XX,2/21S)XX(t21XX,2121S)XX()(t单侧21XX,2121S)XX()(t32三、可信区间的确切含义从1999年某市18岁男生身高值总体N(μ=167.7cm,σ=5.3cm)中随机抽取100个样本计算了100个估计μ的95%CI其中有95个CI包含了μ有5个不包含μ=167.7cm20号161.00~165.5731号161.17~167.3354号168.05~171.0076号167.71~174.8482号167.98~174.27-2-1012来自N(0,1)的100个样本所计算的95%可信区间示意34如果能够进行重复抽样试验,平均有(1)的可信区间包含了总体参数,而不是总体参数落在该范围的可能性为(1)。在实际工作中,只能根据一次试验结果计算一个可信区间,就认为该区间包含了相应总体参数,该结论犯错误的概率≤。可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。可信度是事前概率。可信区间的确切含义35正确性:可信度1,即区间包含总体参数的理论概率大小,愈接近1愈好。精确性:区间的宽度,区间愈窄愈好。当样本含量为定值时,上述两者互相矛盾。若只顾提高可信度,则可信区间会变宽。评价可信区间估计的优劣:36四、可信区间与参考值范围的区别可信区间用于估计总体参数,总体参数只有一个。参考值范围用于估计个体值的分布范围,个体值有很多。95%可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%。95%参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。37第四节t检验38例某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?样本均数与总体均数间差异的原因:1.总体均数不同?2.总体均数相同,差异由抽样误差造成?统计推断方法假设检验(hypothesistest)391.进行检
本文标题:总体均数的估计与假设检验
链接地址:https://www.777doc.com/doc-4006538 .html