您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 第5章抽样分布与参数估计
02468101214161850-6070-8090-1000%5%10%15%20%25%30%35%`统计学导论曾五一肖红叶主编5-2第五章抽样分布与参数估计第一节抽样的基本概念与数学原理第二节抽样分布第三节参数估计第四节样本容量的确定第五节EXCEL在参数估计中的应用5-3第一节抽样的基本概念与数学原理一、有关抽样的基本概念二、大数定理与中心极限定理5-4一、有关抽样的基本概念(一)样本容量与样本个数1.样本容量。样本是从总体中抽出的部分单位的集合,这个集合的大小称为样本容量,一般用n表示,它表明一个样本中所包含的单位数。一般地,样本单位数大于30个的样本称为大样本,不超过30个的样本称为小样本。2.样本个数。样本个数又称样本可能数目,它是指从一个总体中可能抽取多少个样本。5-5(二)总体参数与样本统计量1.总体参数。总体分布的数量特征就是总体的参数,也是抽样统计推断的对象。常见的总体参数有:总体的平均数指标,总体成数(比例)指标,总体分布的方差、标准差等等。它们都是反映总体分布特征的重要指标。5-62.样本统计量。样本统计量是样本的一个函数。它们是随机变量。我们利用统计量来估计和推断总体的有关参数。常见的样本统计量有:样本平均数,样本比例,样本的方差、标准差。5-7(三)概率抽样及其组织形式所谓概率抽样,就是要求对总体的每一次观察(每一次抽取)都是一次随机试验,并且有和总体相同的分布。按这样的要求对总体观测(抽取)n次,可得到容量为n的样本。5-8【例5-1】有10个同样的球,分别标有从1至10的号码。(1)从中有目的地抽出5号球;(2)从中随便地取一个球;(3)把10个球放在袋中,充分混匀,从中抽出一个球,抽取时,要求袋中各个球有相等的被抽中的概率。5-9显然,(1)和(2)的抽取行为都不是随机试验。因而不属于概率抽样。只有(3)的抽取行为是随机试验。总体的分布可用表5-1的分布列来描述,而(3)的随机试验中所观测的随机变量也有与表5-1有相同的分布。所以,(3)的抽取行为是概率抽样。表5-110个球号码的分布号码12345678910频率1011011011011011011011011011015-10(四)放回抽样与不放回抽样1.放回抽样。放回抽样的具体做法是:从总体中抽出一个样本单位,记录其标志值后,又将其放回总体中继续参加下一轮单位的抽取。放回抽样的特点是:第一,n个单位的样本是由n次试验的结果构成的。第二,每次试验是独立的,即其试验的结果与前次、后次的结果无关。第三,每次试验是在相同条件下进行的,每个单位在多次试验中选中的机会(概率)是相同的。在放回抽样中,样本可能的个数是nN,N为总体单位数,n为样本容量。5-112.不放回抽样。不放回抽样的具体做法是:每次从总体抽取一个单位,记录其标志值后不放回原总体,不参加下一轮抽样。下一次继续从总体中余下的单位中抽取。不放回抽样的特点是:第一,n个单位的样本由n次试验结果构成,但由于每次抽出不放回,所以实质上相当于从总体中同时抽取n个样本单位。第二,每次试验结果不是独立的,上次中选情况影响下次抽选结果。第三,每个单位在多次(轮)试验中中选的机会是不等的。不放回抽样,如果考虑顺序,其样本可能个数为)!(!nNN;如果不考虑顺序,其样本可能个数为!)!(!nnNN。5-12(五)抽样分布从总体中可以随机地抽取许多样本,由每一个样本都可以计算样本统计量的观测值,所有可能的样本观测值及其所对应的概率便是所谓的抽样分布。因此,抽样分布也可以称为样本统计量的概率分布。抽样分布可能是精确地服从某种已知分布(所谓已知分布,例如我们在第四章介绍过的各种常见分布),也可能是以某种已知分布为极限分布。在实际应用中,后者更为多见。5-13【例5-2】对某公司10名推销员用放回抽样方式抽取容量为n=2的样本(y1,y2),构造统计量()/1inYyni。10名推销员任职年限如表5-2。表5-210名推销员任职年限资料推销员编号12345678910任职年限(xi)12345678910要求:(1)计算样本的可能个数。(2)给出统计量X的分布、数学期望和标准差。5-14解:(1)可能样本数=Nn=102=100所有可能得到的样本如表5-3。表中方格内数对是用推销员序号表示的样本的各种配合方式,括号内数字是推销员任职年限的样本均值。(2)用表5-3中各样本配合方式的样本均值(括号中数字)数据作成分布数列(表5-4)便描述了样本平均数这个统计量的分布。5-15第二次抽取可能被抽中的人员12345678910第一次抽取可能被抽中的人员11,1(1)1,2(1.5)1,3(2)1,4(2.5)1,5(3)1,6(3.5)1,7(4)1,8(4.5)1,9(5)1,10(5.5)22,1(1.5)2,2(2)2,3(2.5)2,4(3)2,5(3.5)2,6(4)2,7(4.5)2,8(5)2,9(5.5)2,10(6)33,1(2)3,2(2.5)3,3(3)3,4(3.5)3,5(4)3,6(4.5)3,7(5)3,8(5.5)3,9(6)3,10(6.5)44,1(2.5)4,2(3)4,3(3.5)4,4(4)4,5(4.5)4,6(5)4,7(5.5)4,8(6)4,9(6.5)4,10(7)55,1(3)5,2(3.5)5,3(4)5,4(4.5)5,5(5)5,6(5.5)5,7(6)5,8(6.5)5,9(7)5,10(7.5)66,1(3.5)6,2(4)6,3(4.5)6,4(5)6,5(5.5)6,6(6)6,7(6.5)6,8(7)6,9(7.5)6,10(8)77,1(4)7,2(4.5)7,3(5)7,4(5.5)7,5(6)7,6(6.5)7,7(7)7,8(7.5)7,9(8)7,10(8.5)88,1(4.5)8,2(5)8,3(5.5)8,4(6)8,5(6.5)8,6(7)8,7(7.5)8,8(8)8,9(8.5)8,10(9)99,1(5)9,2(5.5)9,3(6)9,4(6.5)9,5(7)9,6(7.5)9,7(8)9,8(8.5)9,9(9)9,10(9.5)1010,1(5.5)10,2(6)10,3(6.5)10,4(7)10,5(7.5)10,6(8)10,7(8.5)10,8(9)10,9(9.5)10,10(10)表5-310人中有放回抽二人的全部可能样本5-16表5-4任职年限样本均值分布数列样本均值X样本数P(X)1.01.52.02.53.03.54.04.55.05.56.06.57.07.58.08.59.09.510.0123456789109876543210.010.020.030.040.050.060.070.080.090.100.090.080.070.060.050.040.030.020.01合计1001.005-17利用表5-4的资料,可以计算出样本平均数的期望值与方差。22222()()5.50()()[()]()[()]34.375(5.5)4.125EVEEXXPXXXXXPXXPXx()4.1252.0310VX5-18二、大数定理与中心极限定理(一)大数定理。大数定理:独立同分布的随机变量X1,X2,…,Xn,…,并且有数学期望iEX及方差2iVX,(i=1,2,…)。则对任意的正数ε,有:111niinXnplim(5.5)5-19大数定理表明:尽管个别现象受偶然因素影响,有各自不同的表现。但是,对总体的大量观察后进行平均,就能使偶然因素的影响相互抵消,消除由个别偶然因素引起的极端性影响,从而使总体平均数稳定下来,反映出事物变化的一般规律。5-20(二)正态分布的再生定理如果变量X服从正态分布,总体的平均数是,标准差是,从这个总体中抽出一个容量是n的样本,则样本平均数X也服从正态分布,其平均数)X(E仍为,其标准差为X。5-21从正态分布的再生定理可以看出,只要总体变量服从正态分布,则从中抽取的样本,不管n是多少,样本平均数都服从正态分布。但是在客观实际中,总体并非都是正态分布。对于从非正态分布的总体中抽取的样本平均数的分布问题,需要由中心极限定理来解决。5-22(三)中心极限定理1.样本平均数的中心极限定理如果变量X的分布具有期望值和标准差,从这个总体抽取容量为n的样本,则当n趋于无穷大时,样本平均数X近似服从正态分布,其平均数)X(E仍为,其标准差为X。中心极限定理告诉我们无论总体服从何种分布,只要它的平均数与标准差客观存在,我们就可以通过增大样本容量n的方式,保证样本平均数X近似服从正态分布。样本容量n越大,样本平均数的分布就越接近正态分布。5-232.样本比例的中心极限定理从任一总体比例为、方差为)(1的(0,1)分布总体中,抽取容量为n的样本,其样本比例P的分布会随着n的增大而趋近于平均数为,标准差为p的正态分布。5-24第二节抽样分布一、样本平均数的抽样分布二、样本比例的抽样分布5-25一、样本平均数的抽样分布(一)样本平均数的期望值与方差在放回抽样的情形下,设从总体中抽出的样本为nxxx,,,21,其是相互独立的,并且与总体服从同一分布。设总体均值为,方差为2,则可推导出样本平均数的期望值与方差、标准差分别为:5-2612()()1()()()12nnX+X++XEXEnEXEXEXn(5.7)2122122()1()()()nxnXXXDnDXDXDXnn(5.8)nx(5.9)5-27【例5-3】计算例5-2中10名推销员平均的任职年限及其标准差,并与例5-2求得的样本平均数的期望值与方差作比较。解:(12+3+4+5+6+7+8+9+10)/10=5.5222(15.5)(25.5)(105.5)/102.87228E(X)5.52.87228/22.0310xn5-28在不放回抽样的情况下,数学上可以证明,其样本平均数的期望值同样等于总体的期望值。而样本平均数的标准差为:12NnNnx(5.10)上式中的N为总体单位数。与放回抽样相比,这里多了一个NnNnN11,这个系数称为不放回抽样的修正系数。由于该系数在0,1之间,因此,不放回抽样的标准差比放回抽样小。当N远大于n时,修正系数近似1,修正与否对平均误差几乎没有影响,这时可以不考虑抽样方式差异,都按放回抽样处理。5-29(二)样本平均数的分布规律当总体X服从正态分布时,根据正态分布的再生定理,样本平均数服从正态分布,即2~(,)XXN。当总体不服从正态分布时,根据中心极限定理,只要样本容量n足够大,样本平均数X仍近似地服从正态分布2(,)XN。一般来说,当总体分布接近正态分布时,所需的样本容量n可以较小,反之则需要较大的样本容量。通常将样本单位数不少于30的称为大样本。5-30【例5-4】160件电子元器件重量的均值为5.02克,标准差为0.30克,从中采用不放回方式随机抽取64件,试求:(1)样本平均数的期望值与方差;(2)总重量在4.96克与5.00克之间的概率。解:(1)E(X)5.02克;12NnNnx=0.3160-64)0.02914(160-1)64(克5-31(2)该问题可化为求样本平均数的观测值在4.96克-5.0克之间的概率。因为2~(5.02,0.3)XN,所以,可先将其进行标准变换,并利用上一章介绍的标准正态分布求解概率。即有:4.96-5.025.0-5.02P(4.96X5.0)PZ0.30.3=0.0279+0.0793=0.10725-32例题1、某地区职工家庭的人均年收入平均为60000元,标准差为8000元。若知该地区家庭的人人均年收
本文标题:第5章抽样分布与参数估计
链接地址:https://www.777doc.com/doc-419495 .html