您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第三章样本均数的抽样误差与置信区间
第三章样本均数的抽样误差与置信区间★联系:数据/变量在离散点或区间上分布分布特征数应用样本数据x频数分布表频数分布图描述指标(xsx,)参考值范围xSx96.1随机变量XX,误差x概率分布表概率分布图总体参数(x,)(x,)置信区间xSx96.13.1样本均数的分布·从同一总体中独立抽取多份样本,他们的均数常大小不一,这说明样本均数存在变异。通过电脑实验来认识样本均数的变异规律一、正态总体样本均数的分布实验3.1从正态分布总体抽样的实验假定正常男子的红血球计数服从正态分布N(4.6602,0.57462),随机抽取1000份样本,每份含n=5个个体。样本均数依然是一个随机变量,且(1)各样本均数未必等于总体均数(x,误差?);(2)样本均数之间存在差异(baxx,变异);(3)样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称(对称、正态?);(4)样本均数的变异范围较原变量变异范围大大缩小(xxSS);(5)随着样本量的增大,样本均数变异范围逐渐缩小(nSSxx)。表3_2实3_1a表3.1从N(4.6602,0.57462)中随机抽样,样本量为5,100份独立样本的均数、标准差和总体均数的95%置信区间(单位:1012/L)样本号均数标准差95%置信区间样本号均数标准差95%置信区间15.00.56884.2939,5.7062514.48.40063.9827,4.977324.72.34704.2891,5.1509524.32.54873.6388,5.001234.24.57633.5246,4.9554534.88.37324.4167,5.343444.64.59493.9014,5.3786544.68.35244.2425,5.117554.60.40054.1028,5.0972554.80.58664.0717,5.528364.80.81863.7837,5.8163564.52.35044.0850,4.955074.68.45024.1211,5.2389574.88.68694.0272,5.732884.32.82253.2989,5.3411584.80.52324.1505,5.449594.72.59643.9796,5.4604594.80.27944.4531,5.1469104.40.44963.8418,4.9582604.76.58234.0371,5.4830114.60.56833.8944,5.3056614.76.70833.8807,5.6394124.60.34014.1778,5.0222624.12.57933.4008,4.8392134.60.66483.7746,5.4254634.72.44194.1714,5.2686144.76.62743.9811,5.5389644.44.28184.0902,4.7898图3.1从正态分布总体抽样的实验结果原正态总体N(4.6602,0.57462);直方图是样本均数的分布(Luo:这里横坐标为x,若改为)(x便是误差分布—图的形状不变)3.74.14.54.95.35.73.74.14.54.95.35.73.74.14.54.95.35.7n=5n=10n=30(a)(b)(c)154.20.68863.3451,5.0549654.921.02673.6454,6.1947164.64.30914.2562,5.0238664.80.71913.9073,5.6927174.96.42234.4357,5.4843674.72.43614.1786,5.2614184.96.40834.4532,5.4669684.84.58734.1109,5.5691194.68.58753.9506,5.4094694.36.48923.7527,4.9673204.84.53404.1771,5.5030704.76.33534.3437,5.1763214.92.28524.5659,5.2741714.40.43093.8650,4.9350224.60.45174.0392,5.1608724.68.68803.8259,5.5341234.44.43333.9021,4.9779734.60.43014.0661,5.1339244.96.37114.4993,5.4207744.48.64113.6841,5.2759254.64.47424.0513,5.228775*4.16.39273.6724,4.6476264.96.53494.2959,5.6241764.52.54873.8388,5.2012274.48.47783.8868,5.0732774.36.39303.8721,4.8479284.68.38184.2061,5.153978*5.04.20524.7853,5.2947294.68.62893.8992,5.4608794.56.99633.3231,5.7969305.28.64674.4771,6.0829804.80.62434.0249,5.5751314.84.67244.0053,5.674781*4.00.20903.7405,4.2595324.52.32034.1224,4.9176824.64.34144.2162,5.0638334.76.58414.0348,5.4852835.04.40504.5372,5.5428344.48.20844.2213,4.7388844.52.53533.8555,5.1845355.04.66464.2149,5.8651854.44.32764.0333,4.8467364.56.39124.0743,5.0457864.60.37974.1287,5.0713374.68.51834.0366,5.3234874.48.28014.1322,4.8278384.80.74453.8758,5.7242884.64.24734.3330,4.9471394.72.72603.8187,5.621389*5.32.39824.8256,5.8144404.68.85673.6165,5.7435904.92.34734.4888,5.3512414.561.02413.2887,5.8313914.72.29414.3548,5.0852424.76.67863.9175,5.6025924.44.42733.9096,4.9704435.04.51764.3974,5.6826934.48.35944.0338,4.9262444.52.36584.0659,4.9741944.92.44564.3668,5.4732454.52.59443.7821,5.2580954.64.47584.0494,5.2306464.72.50244.0963,5.3437964.76.85163.7027,5.8173475.12.63544.3312,5.9088974.64.45604.0739,5.2061484.76.58374.0354,5.4846984.36.33683.9419,4.778149*4.04.35953.5937,4.4863994.56.61973.7907,5.3293504.52.60943.7634,5.27661004.60.45664.0331,5.1669*由这份样本估计的95%置信区间实际上并未复盖总体均数图3_1表3.2从N(4.6602,0.57462)中随机抽取1000份独立样本,其均数的频数分布组段下限(1012/L)频数频率(%)累积频率(%)3.60-10.10.13.80-50.50.64.00-323.23.84.20-11711.715.54.40-22922.938.44.60-30430.468.84.80-21821.890.65.00-767.698.25.20-151.599.75.40-30.3100.0合计1000100.0·理论上可以证明,从正态分布N(,2)的总体中随机抽取含量为n的样本,其样本均数X~N(,2/n)。·样本均数的标准差习惯上又称为样本均数的标准误(standarderror),简称标准误。值得注意的是如下的普遍规律:或nx/(3.1)·实际应用中往往总体标准差未知,人们只能用样本标准差S代替,从而获得x的估计值xS,则有nSSx/(3.2)·为方便计,可称x为理论标准误,xS为样本标准误。二、非正态总体样本均数的分布实验3.2从正偏峰的分布总体抽样的实验(1)随着样本量的增大,样本均数分布的对称性逐渐改善,样本量为30时,样本均数的分布接近正态分布;(2)随着样本量的增大,样本均数的变异范围逐渐变窄。实验3.3从不对称钩形分布的总体抽样的实验图3.3(a):(1)样本均数分布再不象个钩子,样本量很小时就象正态分布了;(2)随着样本量的增大,样本均数的变异范围也逐渐变窄。·以上两项实验的结果具有普遍性。理论上可以证明,非正态总体样本均数的分布并不是正态分布;但当样本量较大时(例如,n≥30),样本均数的分布接近正态分布。图3_13.2t分布一、标准正态离差和标准t离差·标准正态离差便服从标准正态分布,记为)1,0(~NXx(3.3)1234578n=5(b)123456789n=10(c)123456789n=20(d)123456789n=30(e)图3.2从正偏峰的分布总体分布抽样实验的结果(a)是原分布,正偏峰;其它为不同样本含量时样本均数的直方图123456789(a)123456789n=5(b)123456789n=10(c)123456789n=20(d)123456789n=30(e)图3.3从不对称钩形分布总体抽样实验的结果(a)是原分布,呈钩形;其它为不同样本含量时样本均数的直方图123456789(a)·若未知,用样本标准差S代替,xS以代替x它们不尽相同,即xS有变异,因而xSX/)(比xX/)(多了一种与自由度有关的变异。W.S.Gosett于1908年用笔名Student研究了它的分布规律,称之t分布,记为分布tSXx~,v=n-1(3.4)·xSX/)(不妨称为标准t离差(standardtdeviate)。(读作nu[nju:])是t分布的自由度,不同的自由度对应于不同的t分布曲线。二、t分布的图形与t分布表实验3.1(续)标准正态离差和标准t离差对前述实验3.1所得1000份随机样本分别计算标准正态离差和标准t离差,并绘制相应的直方图,如图3.4(a)和(b)所示。·本书附表5给出了t分布的双侧尾部面积和对应的t界值。对应于同样大小的尾部面积,t界值比正态分布界值要大。3.3正态分布总体均数的置信区间·95%置信区间:设N(,2),和未知,由t分布面积规律可知:-t0.05≤xSX≤t0.05(3.3)·经移项化简,可改写为xStX05.0≤≤xStX05.0(3.4)置信程度为95%;换言之,这样估计100次,约有95次正确。·应用公式为(xstx05.0,xstx05.0),或xStx05.0(3.5)·(1-)置信区间:-5-3-10135(a)-5-3-10135(b)图3.4从N(4.6602,0.57462)中随机抽取1000份独立样本,n=5(a)样本均数的标准正态离差的直方图;(b)样本均数的标准t离差的直方图图3.5标准正态分布和t分布的图形ν=∞时的t分布即标准正态分布012345-1-2-3-4-50.00.10.20.30.4(标准正态分布)(xstx,xstx)(3.6)·xst可称为置信区间的精度,它等于置信区间宽度的一半,意指置信区间的两端点离样本均数x有多远。表3_1实验3.1(续)置
本文标题:第三章样本均数的抽样误差与置信区间
链接地址:https://www.777doc.com/doc-2182242 .html