您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 2016统计基础知识(高教版-娄庆松编)课件:第四章-抽样技术概述
统计基础知识编者娄庆松第四章抽样技术概述第一节抽样技术概念第二节抽样调查和抽样误差第三节参数估计第四章抽样技术概述学习要点一、理解和掌握抽样调查的概念、特点和作用。二、掌握抽样技术中常用的基本概念。三、熟练掌握抽样平均误差的概念、影响因素和计算方法四、熟练掌握极限抽样误差的概念和计算方法。五、掌握必要抽样数目的意义和计算。六、了解全及总体总量指标的推算和抽样调查组织方式。第一节抽样技术概念一、抽样技术的涵义抽样技术是统计学的重要分支,它已经成为当今世界上最重要的统计方法。它广泛应用于社会、经济、科技和自然等各个领域,成为现代统计学中发展最快、最活跃的一个分支。抽样技术的完整概念应包括对样本的调查和对总体数据的估计两个方面。这里首先介绍抽样调查,然后介绍总体数据估计的基本理论和方法。(一)抽样调查它是一种非全面调查,是根据随机原则从总体中抽取部分单位进行调查。这部分单位称为样本。而这部分单位数目的多少不是随心所欲确定的,是根据一定原则和要求用科学的方法计算来确定。所谓随机原则,就是可能性原则,是指在抽取样本单位时,完全排除人们的主观愿望,使总体中的每个单位机会均等,抽中与否全凭偶然。(二)抽样估计抽样估计是在抽样调查的基础上,利用样本数据根据概率论来估计总体相应数据的统计分析方法。(三)抽样技术总体、总体指标、样本、样本指标、抽样误差、概率估计等概念构成了抽样技术中的最基本范畴。它们的关系如图4-1。图4-1抽样技术关系图随机取样总体样本调查反整理映汇总概率估计总体指标样本指标(四)抽样设计是指从研究总体中抽取样本之前,预先确定抽样方案。将调查资料使用者、抽样专家、活动组织者和数据处理人员召集起来协商探讨共同确定抽样方案。基本内容有:1.确定目的、任务和要求;2.确定抽样框和样本单位;3.确定组织方式和抽取样本单位的方法;4.确定估计精度要求;5.确定抽样数目和估计方法;6.确定总体方案和工作程序。二、抽样技术的特点(一)在调查单位的抽取上,遵循随机原则。随机原则使样本单位的抽取不受任何主观因素影响,使所抽取的样本变量分布与总体变量分布相类似,从而保证样本的代表性和估计的无偏性。(二)在调查功能上,用样本数据估计总体数据。抽样调查是非全面调查,它具有从部分到总体、由具体到一般的推断功能。(三)在推断手段上,以概率估计方法进行总体推断。抽样估计是以概率论为基础的估计方法,用样本数据估计总体数据时,其可靠性用一定概率保证程度来说明。例如,用城市居民样本数据估计某电视节目的收视率、用居民样本数据估计全市居民家庭收支情况等等。(四)在推断理论上,用大数定律的中心极限定理为基础。中心极限定理证明随着样本单位数的增加,样本变量分布趋向正态分布,样本平均数接近总体平均数、样本标准差接近总体标准差,从而为用样本数据估计总体相应数据提供了科学的理论依据和方法。(五)在推断效果上,抽样误差可以计算并加以控制。用样本数据估计总体相应数据会存在一定误差,根据中心极限定理和正态分布规律,抽样误差可以事先计算出来并可以控制,从而使抽样估计具有一定的可靠程度。三、抽样技术的作用由于抽样技术具有费用低、时效强、准确度高、应用范围广等优点,抽样技术广泛应用于众多领域。(一)用于那些不能或难以采用全面调查的情况。无限总体,如宇宙探测、大气监测或生态保护等的调查;动态总体,如产品质量监测、物价管理等的调查;范围大,分布过散的有限总体,如居民收支调查、水中鱼苗调查、森林木材蓄积量等调查。(二)用于不宜全面调查,而须了解总体数据的情况。如,灯泡、轮胎等产品的耐用时间破坏性质量检验;饮料食品等品尝性检验;人体血液等健康性检验等。(三)用于采集灵敏度高、时效强、时间要求紧迫的资料。如市场动态、商品交易额、股市行情、抢险救灾和战时物资质量检验等。(四)与其他调查方式结合运用,互相补充与核对。如,抽样技术与普查相结合可以检查核对普查数据的准确性;与重点调查相结合,有利于掌握总体数量特征。(五)进行假设检验,判断真伪。如,某项新工艺、新配方或农业新品种在生产中的推广是否具有显著价值,可通过抽样推断进行假设检验,决定是采用还是放弃。四、抽样技术中的几个基本概念(一)抽样框是指供抽样所使用的所有调查单位的详细名单。如,从5万名职工中随机抽取300名职工组成一个样本,则5万职工的名册就是抽样框。抽样框有以下形式:1.名单抽样框,即以名册或清单形式列出总体所有单位。如,学生名册、企业名录、职工名单、住户名单、村庄名单、社区名单等等。2.区域抽样框,按自然地域划分并排列出总体所有单位。如,一片土地划分为若干地块并编号、一片森林划分为若干林区并编号等。3.时间表抽样框,按时间顺序排列总体单位。如,流水线生产的产品质量检验,把一天划分为若干时段并按顺序排列。抽样框的编制是抽样调查的前提条件,要求不重不漏来保证样本对总体的代表性。(二)总体和样本总体指所要研究现象的整体用字母N表示。如,从一万平方米小麦中抽取500平方米进行产量调查,则N=10000平方米。样本,指从总体中抽取的样本单位数,用字母n表示。如,上例中n=500平方米(三)大样本和小样本大样本和小样本是根据样本容量多少来划分。n≥30时为大样本,n30时为小样本。(四)参数和统计量1.参数总体平均数用表示,总体标准差用σ2表示,总体成数用P表示,这些数据在抽样技术称为参数。由于总体是唯一确定的,总体参数也是唯一确定的。2.统计量样本平均数用表示,样本标准差用s表示,样本成数用p表示,这些数据在抽样技术称为统计量。成数指总体或样本中具有某种属性的单位数占全部单位数的比重。如,一片森林中病株数的比重、一批产品中合格品比重、一片农作物中缺苗断垄数比重、某市居民拥有电脑户比重、某电视节目收视率等等。本节小结:(一)样本是从总体中随机的一部分单位。(二)参数是总体数量特征,是用样本统计量估计出来的。(三)统计量是由样本变量直接计算得到的。Xx第二节抽样调查和抽样误差一、随机事件与概率(一)随机事件在相同条件下,每次试验可能出现也可能不出现的状态称为随机事件。例如,掷一对骰子,两颗骰子落下时总共有多少种状态呢?白色骰子能够以6种状态中任何一种状态落下:譬如当白色骰子显示时,黑色骰子仍有6种状态落下:这里,骰子落下所呈现的每种状态称为随机事件。(二)概率一个随机试验由许多可能的事件,我们不仅想知道它们有那些可能的事件,而且还想知道某些事件出现的可能性的大小,并希望将这一可能性用数值描述出来。为了定量地描述随机事件,人们引入了一个描述随机事件发生可能性大小的统计数据——随机事件的概率。某一随机事件发生的次数占所有随机事件发生次数的比率就是该事件的概率。许多数学家、统计学家对概率及其计算作出了巨大的贡献,提出了概率论的公理化体系。概率论,就是研究随机事件规律性的科学。图4-2中显示出两颗骰子出现的可能事件有6×6=36种。它们都是等可能的,所以每一个事件都有36次中一次机会。图4-2掷两颗骰子时的36种事件二、抽取样本单位的方法和抽样误差根据每次从总体中抽取一个样本单位进行调查登记后,是否再把这个样本单位放回原总体中去,抽取样本单位方式有重复抽样和不重复抽样两种方法。(一)重复抽样重复抽样也称回置抽样,它是从总体N个单位中随机抽取一个容量为n的样本,每次从总体中随机抽到一个单位就看成一次试验,连续进行n次试验组成一个样本。每次抽取并记录事件后把被抽中的单位放回总体中重新参加下次抽取。这样,总体单位数不变,已经被抽中的样本单位仍然有同等机会再被抽中。1.样本平均数的变量分布和抽样平均误差样本平均数的变量分布是由总体中全部可能样本平均数的取值和与之相应的概率组成。例如,某班组A、B、C、D、E五个工人的日基本工资分别为:12、14、16、18、20元。下面计算出总体平均数和总体方差:总体工人日平均工资=(12+14+16+18+20)/5=16(元)总体工人日工资方差:σX2=[(12-16)2+(14-16)2+(16-16)2(18-16)2+(20-16)2]/5=8(元)用重复抽样的方法从五人中随机抽2人组成样本,即样本容量a=2,调查记录后再放回总体中去重新参加下次抽取。那么,可能会有几种组合形式的样本呢?根据排列组合法共有25个样本,各样本的日平均工资可列表4-1显示,重复抽样过程见图4-3。图4-3重复抽样过程示意图总体(AA)(BA)(CA)(DA)(EA)(AC)(BC)(CC)(DC)(EC)(AB)(BB)(CB)(DB)(EB)(AD)(BD)(CD)(DD)(ED)(AE)(BE)(CE)(DE)(EE)X表4-1样本组合及样本平均数A,A12,12=12B,A14,12=13C,A16,12=14D,A18,12=15E,A20,12=16A,B12,14=13B,B14,14=14C,B16,14=15D,B18,14=16E,B20,14=17A,C12,16=14B,C14,16=16C,C16,16=16D,C18,16=17E,C20,16=18A,D12,18=15B,D14,18=16C,D16,18=17D,D18,18=18E,D20,18=19A,E12,20=16B,E14,20=17C,E16,20=18D,E18,20=19E,E20,20=20xxxxxxxxxxxxxxxxxxxxxxxxx将表4-1整理成样本平均数变量分布数列表4-2和变量分布频率图如图4-4。表4-2样本平均数变量分布数列0.20-0.16-0.12-0.08-0.04-0121314151617181920(元)图4-4变量分布频率图均值121314151617181920合计频数f12345432125频率P()0.040.080.120.160.200.160.120.080.041.00xxffx图4-4显示样本平均数变量数列呈现正态对称分布形态。根据表4-2计算样本平均数的平均数和方差,见表4-3。表4-3重复抽样样本平均数的平均数和方差计算表f•f(-)(-)2(-)2•f12112-4161613226-391814342-241215460-11416580000174681141835424121923839182012041616合计25400——100xxxxxxxx下面计算:样本均值的均值==400/25=16(元)样本均值的方差=100/25=4(元)样本均值标准差===2(元)栏内各数值:-4、-3、-2、-1、0、1、2、3、4,称抽样个体误差;样本均值方差和样本均值标准差称抽样平均误差。综上全部演示过程,可以得到两个重要结论:1.重复抽样的样本均值的均值等于总体均值,即:==16(元)xffxffxx2ffxx2251004xxxxxXX2.抽样平均误差等于总体方差的1/n,即:=4(元)=8/2(元)=2(元)=4/2(元)因此,统计学将样本均值与总体均值之间的平均离差的1/n称为抽样平均误差简称抽样误差,以μ表示。换言之,抽样误差等于总体方差除以样本单位数之商的平方根,即:ffxx2NXXn21ffxx2NXXn21元42nnXXx这一等式表明两个结论:首先,抽样误差仅为总体标准差的。例如,某县粮食亩产量标准差σ为80千克,随机抽取100亩则抽样误差为μ==8(千克)。其次,抽样误差与总体标准差成正比,与样本单位数的平方根成反比。例如,在同一总体中,样本单位数扩大为原来的4倍抽样误差缩小1/2,即μ===1/2;若抽样误差增加一倍,则样本单位数只需原来的1/4等等。统计学的研究目的是将实践上升到理论,并将理论归纳升华为科学定理,切贝谢夫定理表明:随着样本n的容量增加,样本平均数接近于总体平均数,当样本单位数n足够大时两者的离差非常小,并以概率为1的把握使两者相等。因此,人们在具体实际操作时,通常使用样本统计量来计算抽样误差。n1100/80n/14/1例1,某地区种植20000平方米小麦
本文标题:2016统计基础知识(高教版-娄庆松编)课件:第四章-抽样技术概述
链接地址:https://www.777doc.com/doc-1283683 .html