您好,欢迎访问三七文档
第四讲抽样设计•数字化时代的我们?•买火柴的故事?•普查•抽样•一个好的抽样调查胜过一次蹩脚的普查.候选人预测结果(%)选举结果(%)兰顿5738罗斯福4362在1936年美国总统选举前,一份颇有名气的杂志的工作人员做了一次民意测验,调查兰顿和罗斯福中谁将当选下一届总统。为了了解公众意向,调查者通过电话簿和车辆登记簿上的名单给一大批人发了调查表(在1936年电话和汽车只有少数富人拥有),通过分析收回的调查表,显示兰顿非常受欢迎。于是此杂志预测兰顿将在选举中获胜。实际选举结果正好相反,最后罗斯福在选举中获胜。其数据如下:简单随机抽样思考问题:为什么调查失败?如何科学地抽取样本?使得样本能比较准确地反映总体搅拌均匀使得每个个体被抽取的机会均等合理、公平简单随机抽样在高考阅卷过程中,为了统计每一道试题的得分情况,如平均得分、得分分布情况等,如果将所有考生的每题的得分情况都统计出来,再进行计算,结果是非常准确的,但也是十分烦琐的,那么如何了解各题的得分情况呢?通常,在考生有这么多的情况下,我们只从中抽取部分考生(比如说1000名),统计他们的得分情况,用他们的得分情况去估计所有考生的得分情况。联系生活样本总体估计思考:样本一定能准确地反应总体吗?抽样统计学:统计的基本思想:用样本估计总体,即当总体容量很大或检测过程具有一定的破坏性时,通常不直接去研究总体,而是通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况。是研究如何搜集、整理、归纳和分析数据的学科,它可以为人们制定决策提供依据。抽样一、基本概念和术语•1.抽样调查:从研究对象的总体中选择一部分代表加以调查研究,然后用所得的结果推论和说明总体特征,这种由总体中选取一部分代表的过程就是抽样,所选取的这一部分代表就称为样本.选取样本的方法分为两大类:一类是依据研究任务的要求和对调查对象的分析,主观地,有意识地在研究对象的总体中进行选择.叫非概率抽样,主要用于案例研究.另一类是依据概率理论,按照随机原则选择样本,完全不带调查者的主观意识,称为概率抽样,主要用于以调查为基础的研究.•抽样调查的特点与普查相比具有如下特点:1.调查费用较低.2.速度快3.应用范围广4.可获得内容丰富的资料5.准确性高2.总体(population)总体通常与构成它的元素(element)共同定义;总体是构成它的所有元素的集合,而元素则是构成总体的最基本单位.总体中所包含元素的数目通常用大写字母N表示.3.样本(Sample)样本就是从总体中按一定方式抽取出的一部分元素的集合如从某省总数为12.8万的大学生总体中,按一定方式抽取出1000名大学生进行调查,这1000名大学生就构成该总体的一个样本.样本中的元素数目通常用小写字母n表示.•4.抽样框(SamplingFrame)抽样框也叫抽样范围,是指一次抽样时总体中所有个案(元素)的完整清单.•5.参数值(Parameter)也称总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现.在统计中最常见的参数值是总体某一变量的平均数,需要注意的是,参数值只有对总体中的每一个元素都进行调查或测量才能得到.6.统计值(Statistic)统计值也称为样本值,它是关于样本中某一变量的综合描述.或者说是样本中所有元素的某种特征的综合数量表现.统计值是从样本中计算出来的,它是相应的参数值的估计量,比如样本平均数就是总体平均数的估计量。参数值和统计值的区别是:参数值是固定不变的,唯一的,通常是未知的,而统计值是变化的,即,对于同一个总体来说,不同样本的统计值是有差别的,对于任一特定样本来说统计值是已知的,可计算的,从统计值推论参数值,正是社会调查的一项重要内容。•7.置信度(Confidencelevel)与置信区间(ConfidenceInterval)置信度也称为置信水平,它是指总体参数值落在样本统计值某一区间内的概率,或者说是总体参数值落在样本统计值某一区间中的把握性程度.它反映的是抽样的可靠性程度.置信区间指的是样本统计值与总体参数值之间的误差范围,置信区间反映的是抽样的精确性程度,比如,从某一机关一万名干部中抽取200人为样本,调查其平均工资,若样本的平均工资为100元,那么总体平均工资落在95-105元这一区间的概率可能为96%(误差为±5元),落在90-110元这一区间的概率可能为99%(误差为±10元)可见,置信区间越大,即,误差范围越大,置信水平越高,抽样的精确性程度就越低,反之,置信区间越小,误差范围越小,抽样的精确性程度就越高.二、抽样的程序•抽样的程序在总体中抽取一个样本时,总要尽可能地使样本具有代表性.如果样本的统计值近似总体的参数值,则这个样本可以称为一个代表性样本.(representativesample).问题是怎样做才可以减少抽样的误差,求得一个有代表性的样本呢?这就要依据下面的四个步骤:二、抽样的程序1界定总体•根据调查的目的要求,确定调查对象的范围,包括时间,地点和人物,•例如我们要研究北师大大学生生活态度,可以界定总体的范围如下,2011年北京师范大学大一至大四的在校本科大学生.总体的定义越清楚越好,由样本所得的研究结果,原则上只能推论到这个所界定的总体范围.二、抽样的程序2确定抽样框•在应用之前必须审核其完整性和准确性,•例如,有无遗漏,有无列于名单上但实际上不存在的个案,有没有重复或不属于研究范围的等等.二、抽样的程序3设计和选取样本•确定样本的数量.决定样本的大小时,必须同时考虑抽样误差和研究代价.如,抽样框中有三万大学生,不可能全部调查,要抽取多少个案来进行研究呢?在正常的情况下,样本越大就越有代表性,但是样本越大,所需的研究代价就越大.•选择抽样的具体方法抽样方法有许多种,不同的方法产生的样本代表性是不同的.二、抽样的程序4样本评估在样本抽出后,需采用各种调查方法对样本进行实际调查以收集资料,最后对收集到的资料进行计算并将结果推论和说明总体.在开始调查之前要对样本进行评估,评估的目的是初步检查样本的代表性,以免由于前面步骤中的失误使样本偏差太大,评估样本:收集若干容易得到的资料以进行总体和样本之间的比较.如果样本与总体的情况相似,这样的样本就有代表性,如果两者资料相差甚多,则表明前面的抽样步骤有问题要检查,修正.二、抽样的基本方法•1.概率取样:按照随机原则抽取样本,即在总体中抽取单位时,完成排除了人的主观因素的影响,使每一个单位都有同等的可能性被抽中,具有代表性,可用作推论。多用于正式、量化研究。包括简单随机取样、分层随机取样、聚类随机取样、系统随机取样。•2.非概率取样:每个研究对象的抽取概率是未知、抽样方式不是随机、样本通常按照研究目的选择。不具有代表性、不能判断总体,用于非正式质化研究三、抽样技术的分类抽样技术非概率抽样概率抽样便利抽样判断抽样配额抽样滚雪球抽样简单随机抽样系统抽样分层抽样整群抽样概率抽样3.1简单随机取样•两个方法:抽签法•随机数表法实例•现从我班89名同学中选取10名参加文艺汇演,为保证选取的公平性,你打算如何操作?•…….抽签法思考开始抽签法89名同学从0到88编号制作编号为0到88的号签(共89个)将89个号签搅拌均匀随机从中逐一抽出10个号签与所抽取号码一致的学生即被选中结束简单随机抽样抽签法的一般步骤(总体个数N,样本容量n))(1)将总体中的N个个体编号;(2)将这N个号码写在形状、大小相同的号签上;(3)将号签放在同一箱中,并搅拌均匀;(4)从箱中每次抽出1个号签,连续抽出n次;(5)将总体中与抽到的号签编号一致的n个个体取出。这种方法适用于调研总体中个体数目较少的情况。开始编号制签搅匀抽签取出个体结束随机数表法•要考察某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,若用抽签法抽取,请写出其过程有简化制签的方法吗?简化制签过程的一个有效方法就是制作一个表,其中的每个数都是用随机方法产生的,这样的表称为随机数表,于是,我们只需要按一定的规则到随机数表中选取号码就可以了,这种抽样方法叫做随机数表法•随机数表:制作一个表(由数字0,1,2,...,9组成),表中各个位置上的数都是随机产生的(随机数)即每个数字在表中各个位置上出现的机会都是一样。范例:要考察某公司生产的500克袋装牛奶的质量是否达标,现从800袋牛奶中抽取60袋进行检验,用随机数表法抽取的过程如下第一步,先将800袋牛奶编号,可以编为000,001,…,799第二步,在随机数表中任选一个数,例如选出第8行第7列的数7.(为了便于说明,下面摘取了附表1的第6行至第10行)1622779439495443548217379323788442175331572455068877047447676301637859169555671998105071753321123429786456078252420744385760863244094727965449174609628735209643842634916421763350258392120676128673580744395238791551001342996602795490528477270802734328第三步,从选定的数7开始向右读(读数的方向也可以是向左、向上、向下等),得到一个三位数785,由于785<799,说明号码785在总体内,将它取出;继续向右读,得到916,由于916>799,将它去掉,按照这种方法继续向右读,又取出567,199,507,…,依次下去,直到样本的60个号码全部取出,这样我们就得到一个容量为60的样本.随机数表法随机数表:表中各个位置上的数都是随机产生的(随机数)即每个数字在表中各个位置上出现的机会都是一样。第一步、先将总体中的所有个体(共有N个)编号,第二步、然后在随机数表内任选一个数作为开始,第三步、再从选定的起始数,沿任意方向取数(不在号码范围内的数、重复出现的数必须去掉),第四步、最后根据所得号码抽取总体中相应的个体,得到总体的一个样本.步骤:编号、选数(起始数)、取数、抽取.简单随机抽样简单随机取样•1.实施方便,•2.适合N小的情况、变异情况小的情况•3.rand函数•①生成A与B之间的随机数字(A随机数B)=RAND()*(B-A)+A•②生成A与B之间的随机整数(A随机数B)=INT(RAND()*(B-A)+A)•③生成A与B之间的随机数字(A≤随机数≤B)=RAND()*(B-A+1)+A•④生成A与B之间的随机整数(A≤随机数≤B)•=INT(RAND()*(B-A+1)+A)3.2.分层随机取样•总体单位按其属性特征分成若干类型或层次,然后在各类型或者层次中随机抽样。•分层抽样的方式一般有等比例抽样与非等比例抽样两种。(1)等比例分层抽样。等比例分层抽样是按各层(或各类型)中的个体数量占总体数量的比例分配各层的样本数量。(2)非等比例分层抽样不是按各层中个体数占总体数的比例分配样本个体,而是根据其他因素(如各层平均数或成数均方差的大小,抽取样本的工作量和费用大小等),调整各层的样本个体数,即有的层可多抽些样本个体,有的可少抽些样本个体。特点、步骤•1.适用于总体有明显差别的几部分组成的情况•2.抽取的样本更好地反映了总体的情况•3.是等可能抽样,每个个体被抽到的可能性都n/N•1.分层:分为互不交错的层•2.求比:根据总体个数N和样本容量n计算抽样比k=n/N•3.定数:确定每一层抽取的个体数目,之和等于n•4.抽样:按照定数随机抽样实例•某公司要估计某地家用电器的潜在用户。这种商品的消费同居民收入水平相关,因而以家庭年收入为分层基础。假定某地居民为1000000户,已确定样本数为1,000户,家庭年收入分10000元以下,10000——30000元;30,000——60,000元,60,000元以上四层,其中收入在10,000元以下家庭户为180,000户,收入在10,000——30,000元家庭户为350,000
本文标题:管理第四讲抽样设计
链接地址:https://www.777doc.com/doc-420060 .html