您好,欢迎访问三七文档
第七章抽样调查第七章抽样调查§7.1总体和样本§7.2抽样调查的数理基础§7.3总体参数估计§7.4抽样设计§7.5统计假设检验第一节总体和样本一、抽样调查概述抽样调查是一种科学的非全面调查。它是按照随机原则从调查对象的总体中抽取部分单位进行调查,并根据这部分单位的调查结果推断总体的数量特征。抽样调查抽样调查的特点随机抽取样本单位;用部分信息推断总体数量特征;抽样推断具有一定的概率保证程度;抽样误差可以事先计算并控制。作用应用经济性:节省人力、物力、财力和时间时效性:可用较短的时间搜集到所需资料适应性:适用于各领域,各种问题的调查准确性:受人为干扰的可能性较小,调查资料的准确性较高能解决全面调查无法或难以解决的问题可以补充和订正全面调查的结果应用于生产过程上产品质量的检查和控制二、有关抽样的几个基本概念全及总体和样本总体1、全及总体全及总体又称总体或母体,是指研究对象的全体,它是由许多个性质相同的调查单位组成的,总体单位数通常用N表示。例如:全部职工、全部学生、全部产品2、抽样框抽样框是指用以代表总体,并从中抽选样本的一个框架,抽样框的主要形式有三种:①名单抽样框②区域抽样框③时间表抽样框对于抽样调查来说,样本的代表性如何,抽样调查最终推算的估计值真实性如何,首先取决于抽样框的质量。抽样框在抽样调查中处于基础地位,是抽样调查必不可少的部分,其对于推断总体具有相当大的影响。全及总体和样本总体3、样本总体样本总体,又叫子样,简称样本。它是从全及总体中随机抽取出来,用来代表全及总体的那部分单位构成的总体。样本总体的单位数用小写字母n表示,称为样本容量。从某个城市职工家庭中随机抽取1000户进行调查,则这1000户组成的小总体即为样本,样本容量n=1000。例如:全及总体和样本总体对于给定的研究对象,全及总体是唯一确定的,而样本总体不是唯一的,它是随机的。4、抽样比抽样比是指在抽选样本时,所抽取的样本单位数n与总体单位数N之比。一般地讲,n≥30为大样本,n<30为小样本。研究社会经济现象时,通常采用大样本进行抽样调查。全及总体和样本总体二、有关抽样的几个基本概念总体指标和样本指标1、总体指标总体指标是根据全及总体所有单位的标志值计算出来的,反映总体的数量特征。为与样本指标区分,用大写字母表示总体指标。包括:总体平均数总体成数总体方差总体标准差XPQ2总体指标和样本指标2、样本指标样本指标又称抽样指标,它是根据样本总体计算的统计指标,反映样本总体的数量特征,样本指标用小写字母表示。包括:样本平均数样本成数样本方差样本标准差xpq2ss二、有关抽样的几个基本概念抽样方法和样本可能数目1、重复抽样重复抽样也叫重置抽样,是指每次抽取一个单位记录其标志表现后又放回,重新参加下一次的抽选。全及总体单位数始终保持不变,每个总体单位都有被重复抽中的可能。重复抽样通常要考虑单位排列顺序,其样本可能数目为nNm重抽样方法和样本可能数目2、不重复抽样不重复抽样也叫不重置抽样,是指每次从总体中抽取一个单位记录其标志表现后不再放回,从剩余的单位中抽取下一个单位。全及总体单位数在不断减少,每个总体单位不可能被重复抽中。不重复抽样通常不考虑样本单位排列顺序,其样本可能数目为nNCm不重第二节抽样调查的数理基础抽样调查数理基础抽样分布大数定律正态分布中心极限定理抽样分布的形成过程总体计算样本统计量如:样本均值、成数、方差样本样本统计量的概率分布大数定律第二节抽样调查的数理基础在对某一现象观察过程中,由大量相互独立的随机变量构成的总体,由于受偶然因素的影响,每次所得到的结果不同,但经过大量观察并加以综合平均后,消除了偶然因素引起的差异,而接近于总体的平均值,使现象总体某一方面的规律在数量上、质量上显示出来。例如:抛硬币实验通常以平均数或成数的形式表现1.独立同分布大数定律独立同分布的随机变量:,设它们的平均数为,方差为,则对任意小的正数ε,有:,,,,21nxxxX211lim1Xxnpniin2.贝努力大数定律设m是n次独立随机试验中事件A发生的次数,p是事件A发生的概率,则对于任意小的正数ε,有1limpnmpn大数定理从理论上揭示了样本和总体之间的内在联系,即随着抽样单位数n的增大,样本平均数有接近总体平均数的趋势,样本成数有接近总体成数的趋势。注意:第一、抽样必须遵循随机原则。第二、抽样必须遵循大量原则。正态分布例如:人类的身高、产品的寿命、加工零件的尺寸等。正态分布基本指这样的分布:在总体平均数及其附近,总体单位数最多;相反地,越远离总体平均数,总体单位数越少。也就是说,越接近总体平均数的变量值出现的次数越多,概率也就越大;反之,越远离总体平均数的变量值出现的次数就越少,概率也就越小。第二节抽样调查的数理基础正态分布的特征1、正态分布是钟型对称分布,对称线为总体平均数,整个曲线下的面积等于1。总体平均数将分布曲线截为两段互为镜像的曲线,两段曲线下的面积相等,各为1/2。X2、在总体平均数处,正态分布的概率密度最大,当远离总体平均数时,概率密度的值随着距离的增加而递减。Xf(x)3、在距离总体平均数一个标准差的位置上,即时,曲线有两个拐点。xxxx4、正态分布的位置及形状由总体平均数和总体标准差决定,总体平均数决定正态分布中心的位置;ax0xax125.04、总体标准差决定正态分布的宽窄的形状。当被抽样总体服从正态分布时,样本平均数的抽样分布具有下列重要性质:样本平均数的分布仍然是正态分布;样本平均数分布的平均值等于总体平均数;样本平均数分布的方差等于总体方差除以样本容量。中心极限定理第二节抽样调查的数理基础从具有任意分布形式的总体中抽出一个容量是n的样本,如果总体的平均数是,方差是,则当n充分大时,样本平均数趋于正态分布。样本平均数所服从的正态分布的中心仍是,标准差是抽样平均误差。X2xX当样本容量很大时,样本成数近似地服从正态分布,分布中心为总体成数pPx第三节总体参数估计一、参数估计的优良标准1、无偏性无偏性是指样本指标的平均数等于被估计的总体指标数值。这时称样本指标是总体指标的无偏估计量,否则就是有偏估计量。根据中心极限定理,当样本容量n很大时,样本平均数等于总体平均数,样本成数的平均数等于总体成数,因此样本平均数和样本成数是总体平均数和成数的无偏估计量。2、有效性有效性是指样本指标的标准差越小,越有效。总体指标的无偏估计量往往不止一个,采用的标准在于选择有效的样本指标。总体平均数的无偏估计量样本平均数样本中位数样本众数标准差最小理论证明,样本平均数和样本成数均满足有效性。3、一致性一致性是指随着样本容量n的增大,样本指标与被估计的总体指标的偏差越来越小。根据大数定律,随着样本容量n的增加,样本平均数(样本成数)有接近于总体平均数(总体成数)的趋势。因此,样本平均数(样本成数)是总体平均数(总体成数)的一致估计量。1limXxpn1limPppn4、充分性在计算样本指标时,若能把包含在样本中有关总体的信息完全提取出来,那么该样本指标就是总体指标的充分估计量。即在计算样本指标时,尽量使样本中含有的总体信息损失得少一些,损失越少,说明越充分。样本平均数和样本成数均满足以上四个标准,因此,可以用样本平均数估计总体平均数,用样本成数估计总体成数。第三节总体参数估计二、抽样误差1.抽样误差的概念抽样调查过程中的误差根据其来源大体上可以归纳为两类:一类是登记性误差,另一类是代表性误差。在调查时对样本各单位观察、测量、登记过程中出线的差错及汇总样本、计算样本指标等工作产生的误差。代表性误差是指用样本指标推断相应的总体指标时,因样本结构与总体结构不同,致使样本不能完全代表总体而产生的误差。包括系统误差和随机误差。是由于抽样调查时没有按照随机原则,而是人为的、有意地抽取样本所产生的误差,也叫偏差。例如:对某乡稻田产量进行抽样调查,调查人员抽取样本时有意多抽产量高(或低)的稻田随机误差即通常所说的抽样误差。是指由于随机抽样引起的样本结构不同于总体而产生的样本估计值与总体参数真值之间的离差。登记性误差和系统误差是人为的,在抽样调查的过程中应尽量避免;而抽样误差(随机误差)是抽样调查固有的,不可避免,但可以事先计算并加以控制。2.影响抽样误差的因素总体变异度抽样误差与总体方差或标准差成正比样本容量抽样误差与样本容量成反比抽样方法不重复抽样的误差小于重复抽样的误差抽样组织方式整群简单等距分层3.抽样平均误差所有可能样本的估计值与所要估计参数离差的平均数。表明样本平均数(或成数)与总体平均数(或成数)的平均误差程度。理论公式:MXxx2MPpp2抽样平均误差实质是样本估计量即样本平均数(或成数)的标准差(M为样本个数)式中:为平均数的抽样平均误差;为总体方差;为样本容量;为总体单位数。①样本平均数的抽样平均误差3.抽样平均误差重复抽样nx2不重复抽样12NnNnx2xnN式中:为成数的抽样平均误差;为总体成数;为是非标志的方差;为样本容量;为总体单位数。②样本成数的抽样平均误差3.抽样平均误差重复抽样nPPp)1(不重复抽样1)1(NnNnPPpPp)1(PPnN3.抽样平均误差③不重复抽样的修正系数重不重211NnN1121NnNNnN或在实际抽样调查时,总体单位数N往往很大,(N-1)近似的等于N,所以修正系数可以转化为:NnNnN11对于无限总体或N很大时,或当抽样比很小时,有,则重复抽样和不重复抽样的抽样平均误差几乎相等。实际工作中,经常采用不重复抽样方法进行抽样,而采用重复抽样的抽样误差公式计算抽样误差,以简化计算。)(Nn11Nn3.抽样平均误差③不重复抽样的修正系数【例】欲了解某村2800户农民的年收入情况,随机抽取140户调查,平均每户年收入为5965元,标准差为104.8元,试求抽样平均误差。解:若采取重复抽样方法,则有nx2已知条件缺少总体标准差,用样本标准差代替,则元86.81408.1042nsx若采取不重复抽样方法,则有元63.8280014011408.104122Nnnsx4.抽样极限误差在一次抽样中允许的最大误差范围称为抽样极限误差。是变动的样本指标与唯一确定的但又是未知的总体指标之间的离差可能范围。XxxPppxxXxXppPpP样本指标在总体指标的附近变动,抽样误差范围是以总体平均数(或成数)为中心的两个⊿距离。概率度抽样极限误差通常需要以抽样平均误差为标准单位来加以衡量,把抽样极限误差除以相应的抽样平均误差,表明抽样极限误差是抽样平均误差的多少倍,这个倍数称为概率度,用字母Z表示。ppppxxxxzzzz或或抽样极限误差的理解XxxPppxxXxXppPpPxxxXxpppPpz值越大,允许的误差范围越大,样本指标落在以总体指标为中心的两个⊿距离的可能性(概率)越大。z值越大,总体指标落在以样本指标为中心的两个⊿距离的可能性(概率)越大。对于一定的概率度z就有对应的概率P。常用的有以下五对概率度z与概率P的对应关系概率度z概率P11.6451.96230.68270.90.950.95450.9973抽样极限误差的实质,就是在一定的概率保证程度要求下,估计量误差的可能范围。第三节总体参数估计三、抽样估计的置信度置信度抽样估计时总体参数落在某个区间的概率保证程度称为抽样估计的置信度。用P或表示。抽样估计的置信度和抽样极限误差有着密切联系。当抽样极限误差范围增大时,抽样估计的置信度也随之有规律地增大,抽样估计的精确程度则随之有规律地降低,
本文标题:七 抽样调查
链接地址:https://www.777doc.com/doc-417932 .html