您好,欢迎访问三七文档
6-1-86第6章抽样分布6.1抽样方案(抽样技术方法)6.2三种不同性质的分布6.3一个总体参数推断时样本统计量分布6.4两个总体参数推断时样本统计量分布6-2-86学习目标1.熟悉抽样的概率抽样方法2.区分总体分布、样本分布、抽样分布3.理解抽样分布与总体分布的关系4.掌握单总体参数推断时样本统计量的分布5.掌握双总体参数推断时样本统计量的分布6-3-86回顾和了解:抽样误差1、误差及其种类6-4-86误差代表性误差登记性误差(调查误差或者工作误差)偏差随机误差样本指标数值与总体指标数值之间的差数指用部分来代表总体,推算全面时所产生的误差指没有严格遵守随机原则而产生的系统性误差指遵循了随机原则,可能抽到各种不同的样本,只要样本单位被研究标志的构成比例与总体有出入,就会出现或大或小的误差,是不可避免的,是偶然的代表性误差6-5-862.抽样误差是随机误差,也就是按照随机原则抽样时,在没有登记性误差和偏差条件下,单纯由于不同的随机样本得出不同的估计量而产生的误差。3、影响抽样误差的因素(1)抽样数目的多少(2)总体被研究标志的变异程度(3)抽样方法和组织形式不同6-6-864.抽样平均误差是抽样平均数(或抽样成数)的标准差。它反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。通常用表示px或2222()(())()()()1xxXExExExXxnXNnnN重复抽样下不重复抽样下抽样推断的理论基础•抽样推断是建立在概率论的大数定律和中心极限定律基础上的科学推断方法。•1、大数定律:关于大量的随机现象具有共同的规律性的理论。•如果随机变量总体存在着有限的期望和方差,则对于充分大的抽样单位数n,可以用几乎趋近于1的概率来期望样本平均数与总体平均数的绝对离差为任意小,即:对于任意的正数,有:lim(||)1nPxEXxEXn记为抽样平均数总体平均数样本容量2、中心极限定律(centrallimittheorem)•阐述大量随机变量之和(或者样本均值)分布趋近于(收敛于)正态分布的一系列定理统称为中心极限定理。21(,),niixNnnn近似服从当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布nx中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布一个任意分布的总体xx6-10-866.1抽样方案设计6.3.1简单随机抽样6.3.2类型(分层)抽样6.3.3等距(系统)抽样6.3.4整群抽样6.3.5多阶段抽样6-11-86抽样方法简单随机抽样类型(分层)抽样整群抽样等距(系统)抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式6-12-86概率抽样(probabilitysampling)1.根据一个已知的概率来抽取样本单位,也称随机抽样2.特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率6-13-86简单随机抽样(simplerandomsampling)1.从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中,又称纯随机抽样,是对全及总体的所有单位不作任何分类或排队,完全按随机原则逐个地抽取样本单位。2.抽取元素的具体方法有重复抽样和不重复抽样3.特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便每个单位被抽取的机会均等;方法简便。适合在总体单位数目不很多,且总体单位标志变异程度不大,某种特征分布均匀的情况下使用。当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率6-14-865.简单随机抽样的方法(1)抽签法将总体各个单位编号,然后随机抽取,直到抽够预定数目。(2)随机数表法(乱数表)制作原理是:把0到9的10个数字,不停的随意抽取,每次一个,抽后放回,完全混合后再抽。把抽出的数字逐一依先后次序记下来,一行一行的列成表。在表中,每五行留一个空位,每五列也留一个空位。例1:有450人参加了一场智力测验,所得的成绩如下:试从中随机抽取2个考生的成绩。解:先把450个考生编号,把0分的两个考生分别配以001和002,把1分的考生配以003到007,以此类推,得下表:6889012390890237889912309098341265412438876130985643267125438665498654126731345697633230711087434100123557654309772136828763212357087651244600234775301235834667372331468065209590214567903456877327751223457890054582921876549914587356940789023458939825成绩012345678910人数2523346790876839278成绩012345678910考生代码001-002003-007008-030031-064065-131132-221222-308309-376377-415416-442443-450如从第三行第三列取为:097,下一行为372。则:抽取的是编号为97和372的考生,对应的成绩是4分和7分。7.简单随机抽样的误差估算()(1)(1)(1)(1)1ppXPPnnPPNnPPnnNnN重复抽样下不重复抽样下22222()(())()()()()(1)1xxXExExExXxnXNnXnnNnN重复抽样下不重复抽样下随机抽样案例分析“抓阄”征兵计划•在美国的对越战争中,为使前线有足够的士兵,美国政府制定了一个“抓阄”的征兵计划,该计划打算把1~366的号码随机地分配给一年中的每一天,然后由军事部门按分配的号码顺序把生日与之对应的年轻人分批征召入伍。这种方法的目的是为了给大家相等的机会卷入这场不受欢迎的战争,因此被征召的可能性应该是随机的。•在第一年的征兵计划中,号码1被分配给了9月14日,分配方法是随机抽取一个大容器中的366个写上了日子的乒乓球,结果所有年满18岁且生日为9月14日的合格青年将作为第一批被征召入伍,生日分配为号码2的青年在第二批被征召入伍,以此类推。•因此,并不是所有的人都被征召入伍,生日被分配的号码较大的人也许永远也轮不上到军队服役。•在“抓阄”的第二天,当所有的日子和它•们对应的号码公布以后,统计学家们经过•观察和计算,发现一些规律。应该有差不•多一半的较小的号码(1~183)被分配给前•半年,即从1月初到6月末,另外一半较小•的号码分配给后半年的日子,即从7月初到12月末。•结果是:•有73个较小的号码被分配给了前半年的日•子,同时有110个较小的号码被分配给了后•半年的日子。•生于后半年某一天的某个人被分配给一个较•小号码而去服兵役的机会要大于生于前半年•的人。原因•非随机性是由于乒乓球在抽取之前没有被充分搅拌造成的。6-22-86类型抽样(分层抽样)(stratifiedsampling)6-23-86类型(分层)抽样(stratifiedsampling)1.又称分类抽样或者分层抽样。是将总体全部单位按某个标志分成若干个类型组,然后从各类型组中采用简单随机抽样方式或其它方式抽取样本单位。如:在农产量调查中,先按所在地区将生产单位分为山区、丘陵、平原等几个类型,然后在每个类型中抽取调查单位。2.特点:把分组法和随机抽样结合起来,能缩小各类型内部差异的程度,同时保证从不同类型都能获取一定的调查单位,提高了所选样本的代表性,取得较好的抽样效果保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层(类)的目标量进行估计适合在总体情况复杂,总体单位数多,总体单位之间差异较大的情况下使用6-24-863.类型抽样的方法(1)等比例类型抽样:按各类型组在总体中所占比例分配样本单位数的方法。即:(2)不等比例类型抽样不按照类型的大小等比例的分配样本单位的方法等额分配:在各类型组中分配同等单位数。最优分配:按各类型组的规模大小和差异程度,确定各类型组的样本单位数。1212kknnnnNNNN6-25-864.类型抽样的误差计算项目重复抽样不重复抽样计算平均数的平均误差公式计算成数的平均误差公式2xun2(1)xnunN(1)pppun(1)(1)pppnunN222()iiiiNnNn或者2为总体方差,2i为第i组总体方差,in为第i组样本容量例题分析某乡共有农户4000户,分粮食作物区与经济作物区,现在用类型比例抽样方法分别抽取10%农户,调查农户收入情况,并计算各组内平均每户收入及其标准差,试推断全乡抽样平均每户收入和抽样平均误差。资料如下。农户总数样本户数抽样平均每户收入/元抽样标准差/元粮食作物区2500250360052经济作物区1500150540075合计4000400--iNinXi•解:根据资料,可得样本元)(元为样和不重复抽样下分别抽样平均误差在重复抽元组内方差平均数为元样本平均每户收入92.240004001400375.3799)1(08.3400375.3799375.3799400150752505242754001505400250360022222Nnnununnnnxxxxiiii6-29-86系统抽样(等距抽样)(systematicsampling)6-30-86等距(系统)抽样(systematicsampling)1.又称机械抽样或者系统抽样,是将总体各单位标志值按某一标志顺序排队,然后按一定的间隔抽取样本单位。2.特点可以保证被抽取的单位在总体中均匀分布,缩小各单位之间的差异程度,提高样本的代表性,一般是不重复抽样.操作简便,可提高估计的精度但是,样本的起点一旦确定,以后的样本便不可改变,故应注意避免抽样间距与调查对象本身的周期性波动而产生系统误差。如:产品质量检验中,产品抽样时间间距不应与设备产生不合格品的时间间隔相等。6-31-863.等距抽样的方法(1)无关标志排队法指总体单位采用与调查项目没有关系的标志进行排队的方法。(2)有关标志排队指总体单位采用与调查项目有关系的标志进行排队的方法。**抽取第一个样本单位的方法①随机抽取②居中抽取4.等距抽样的误差计算(1)按无关标志排队:用不重复简单随机抽样的误差计算公式(2)按有关标志排队:用类型抽样的误差计算公式系统抽样案例分析•曾经有两位美国社会学家对美军在越南战争中的士气问题进行调查,他们使用了系统抽样方法,选择逢10的号码作为样本,然而结果完全出乎意料,官兵的士气远比假设的要高。•经过对抽样方法的鉴定,悟出一个道理:•原来军队的花名册排列是由“三等兵、二等兵、……少尉、中尉、上尉”的顺序排列的,每10个人恰好构成一个循环,这样,他们逢10抽取的都是清一色的某个军阶的军官,而军官的士气相对来说要高,这样的调查结论在推及军队官兵总体时就失去意义。•改进•将每一军阶的士兵或军官放在一组,将第1~100号列为三等兵组,第101~200号列为二等兵组,……,然后重新系统抽样。•最后得出的结论推及总体时就较全面、客观。6-35-86整群抽样(clustersampling)6-36-86整群抽样(clustersampling)1.又称集团抽样或者成批抽样.把总体分为若干群,从总体群中抽取若干样本群,对抽中的群进行全数
本文标题:6抽样与抽样分布
链接地址:https://www.777doc.com/doc-2931295 .html