您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 抽样技术简单随机抽样
第三章简单随机抽样第一节概述一、简单随机抽样的概念1.简单随机抽样也叫纯随机抽样,完全随机抽样。简单随机抽样是直接从总体的N个单位中完全随机的抽取n个单位,并使总体中的每个单位都有同等被抽中概率的抽样组织形式。简单随机样本的图示一、简单随机抽样的概念2有重复抽样和不重复抽样两种形式。3严格意义上的简单随机抽样是指逐个不放回的、即不放回抽样。4简单估计量是自加权的自加权:如总体总量(或均值)的一个估计量可以表达为样本观测值的总和(或平均数)的常数倍,则称这种估计量(或相应的样本)是自加权的。二、简单随机抽样的实施方法1抽签法(摇珠法):(1)抽签法(2)特点:技术简单、但编号复杂(3)适用于:N和n均不太大的情形。二、简单随机抽样的实施方法2随机数表法或随机数骰子(色子)(1)随机数骰子(色子)(2)随机数表(3)如果N的最高位数值较小,一般作处理。二、简单随机抽样的实施方法例:N=1300,M=20002841——2841÷2000…841,抽中3421——3421÷2000…1421,舍弃6181——6181÷2000…181,抽中6115——6115÷2000…115,抽中9176——9176÷2000…1176,抽中(4)国际上通用的随机数表有四种:英国统计学家蒂配特编制了历史上第一张《随机数字表》,四位一组肯德尔和史密斯(kendall&Smith)1938年编制的10万数字表美国兰德公司1955年编制出版《一百万随机数字》二、简单随机抽样的实施方法3计算机模拟法利用计算机产生随机数,很多软件都可以。参考文章阅读及链接三、简单随机抽样的地位和作用(一)简单随机抽样的地位(二)简单随机抽样的缺点1需要完整的抽样框;2样本点分散第二节总体均值与总量的简单估计例:下面是从N=6的总体抽取的n=3的全部可能样本情况,总体指标值为{6、7、10、12、25、30}。S2=100.8总体均值为15总体总量为90全部可能样本列表样本编号样本单元号样本数值样本均值样本均值与总体均值离差样本方差11、2、367107.67-7.334.3321,2,467128.33-6.6710.3331,2,5672512.67-2.33114.3341,2,6673014.33-0.67184.3351,3,4610129.33-5.679.3361,3,56102513.67-1.33100.3371,3,66103015.330.33165.3381,4,56122514.33-0.6794.3391,4,661230161156101,5,66253020.335.33160.33112,3,4710129.67-5.336.33122,3,57102514-193132,3,67103015.670.67156.33142,4,57122514.67-0.3386.33152,4,67123016.331.33146.33162,5,67253020.675.67146.33173,4,510122515.670.6766.33183,4,610123017.332.33121.33193,5,610253021.676.67108.33204,5,612253022.337.3386.33平均——45150100.8例:一、简单估计及其无偏性1总体均值NiiNYY1总体总量YNY2简单估计:用样本均值估计总体均值总体均值的简单估计niiynyY11ˆ总体总量的简单估计iynNyNYNYˆˆ3样本均值是总体均值的无偏估计YyE)(1总体方差:2222)(11)(1YYNSYYNii2y的方差:221)(SnfSnNnNyV二、估计量的方差31-f称为有限总体修正系数,记fpc。4当f≈0,1-f≈1,则V(y)与样本量n成反比,5总体总量的估计量方差2)()()ˆ(SnnNNyNVYV5总体总量的估计量方差2)()()ˆ(SnnNNyNVYV三、估计量的方差估计1为了估计估计量的方差,必须对总体方差进行估计。2而对于简单随机抽样,样本方差是总体方差的无偏估计。)(11)(11)(1122222ynynyynsYYNSiiE(s2)=S23估计量的方差估计22)()(1)(snnNNyNvsnfyv4总体均值的置信度为1-α的近似置信区间为snfysnfy1,1例:一个房间有五个人,i=1、2、3、4、5,N=5,每个人带的钱Yi=100元、80元、100元、120元、90元,Y=98元,(Yi-Y)2=880。则全部可能样本情况表如下:全部可能样本情况表样本y(y-Y)2(yi-y)295%置信下限95%置信上限1,21,31,41,52,32,42,53,43,54,590100110959010085110951056441449644169144949200020050200800502005045073.883.893.878.873.883.868.893.878.888.8106.2116.2126.2111.2106.2116.2101.2126.2111.2121.2合计(98)6602200——1每个样本出现的可能性为spC1011252210122252212222)(220101)4500200()(.51)(6622021122088041)(11....412.8)()(66101)49464()()()(.398101)10510090()(.2SsEpssESnfyVSnfYYNSyVySpYyYyEyVYyYpyyEsNiiss的无偏估计量是例:为调查某城镇成年居民的服装消费水平,在全体N=5443个成年中,用简单随机抽样抽的一个n=36的样本,调查上一年中购买成衣件数xi与支出金额yi,样本资料如下,试估计该城镇居民成衣平均消费水平及消费总额ixiyiixiyiixiyi12345678910111274520466150866704503701300250123090012400145054013141516171819202122232431062143261482801750420160120840170250830803201450252627282930313233343536341001211285124142807508000980150014021007201200130890解:根据表中数据,计算得:(元)(件)(元)件)71.91)()(73.8410304803027594.0)(6602916.0)()(435985.08.15027594.01)(027594.0544336365443130480335)36/2339025865100(,25865100722.64936/23390,233908.1535)5.5361642(,1642(5.536/198,1982222222yvysyvxvxssnfxvnfsyyysxxxxyiixii该城镇成人平均年成衣消费5.5件,95%置信度的近似置信区间为(5.5±1.96×0.66),即[4.21件,6.79件];而人均用于成衣消费支出的金额为649.722元,95%置信度的近似置信区间为(649.722±1.96×91.71),即[469.97元,829.47元]。该城镇成人年成衣总消费量估计5.5×5443=29937件,95%置信度的近似置信区间为(29937±1.96×0.66×5443),即[22893件,36981件];该城镇用于成衣的消费总金额估计为3536438.06元,95%的近似置信区间为:(3536438.06±1.96×91.71×5443)即[2558048.54元,4514827.58元]课堂练习及讨论1.P67页3.1题,要求计算入样概率,说明是否为等概率,比较1和2有何不同,比较3、4、5、6有何不同,比较7和8有何不同。2.书上3.2题。要求计算不放回情形1~5.3.P68页3.3题第三节总体比例(成数)的简单估计一、概述1总体成数是指总体中具有某种特定特征的单元在总体中所占的比例。2一般,我们将成数问题转换成对总体均值(总体总量)的估计的特殊情形。令总体单元的指标Yi,特征,若该单元不具有某种征,若该单元具有某种特01iY设总体中具有该种特征的单元数为A,则:PQNNPPNNSYNYNAPAYYi1ˆ)1(1,2Q=1-P二、估计量及其性质1抽取样本量为n的简单随机样本,则:pqnnyynsynapi1)(11222样本成数是总体成数的无偏估计。E(p)=PE(Np)=A3估计量的方差1)(1)(2NnNnPQNNpVNnNnPQpV4估计量方差的估计样本方差是总体方差的无偏估计pqnnNNNnNnpqNNpvpqnfpqnNnNpv1)(1)(11)1()(25区间估计(1)二项分布的正态近似置信区间pqnfppqnfp11,11(2)连续性修正后,近似置信区间为)2111(),2111(npqnfpnpqnfppqnfuppqnfup11,11)2111(),2111(npqnfupnpqnfup(1)二项分布的正态近似置信区间(2)连续性修正后,近似置信区间5区间估计例:对某问题进行调查,在总体中抽取一个n=200的简单随机样本,赞成、反对、不回答的人数分别为:n1=132,n2=51,n3=17,是给出赞成、反对、不回答比例P1、P2与P3的90%的近似置信区间。设N很大,f可忽略。解:解:p1=132/200=0.66=66%,q1=1-p1=34%p2=51/200=0.255=25.5%,q2=1-p2=74.5%p3=17/200=0.085=8.5%,q3=1-p3=91.5%α=10%,uα=1.645,1-f≈1则pi的90%近似置信区间为:将pi、qi的数值代入,得P1的90%近似置信区间:[60.23%,71.77%]P2的90%近似置信区间:[20.17%,30.83%]P3的90%近似置信区间:[5.00%,12.00%])2111(),2111(nqpnfupnqpnfupiiiiii第四节样本量的确定一、确定样本量的原则与主要考虑因素(一)确定样本量的重要性1通常样本容量与估计量方差呈反比。2样本方差还与其他因素相关。(二)样本设计时主要考虑因素1调查目的2非抽样误差3结合精确度、花费和调查目的要求来确定。(三)确定样本量的原则1如果费用限制很大,则根据费用确定样本量。CT=c0+cn其中:c0为固定费用,c为调查每一单位变动费用则:n=(CT-c0)÷c2如果费用限制小,则根据给定的精度要求,求得所需要的最低样本量。3实际调查中,为保险起见,会对计算所得最低样本量加上5%或10%的余量。二、估计总体均值或总量时样本量的确定方法1若给定精度要求为估计量y方差上限V,则NnnnVSVNSVSSNVNSnVnNSnNVSnNnN00202222221:,n1)(,则若令若n0N(远远小于),则可取:n≈n02若给定精度要求为估计量y的绝对误差限d,则NnnndSNdSdSndV00202221:,n1
本文标题:抽样技术简单随机抽样
链接地址:https://www.777doc.com/doc-418304 .html