您好,欢迎访问三七文档
第二章抽样方法第一节抽样设计的基本知识第二节随机抽样技术第三节非随机抽样技术第四节样本容量的确定第一节抽样设计的基本知识案例:1、1936年,兰登总统当选2、1948年,杜鲁们总统当选3、1996年,美国总统大选问题:例1:某灯泡厂生产的灯泡10000只,怎样才能了解这批灯泡的使用寿命呢?例2:为了了解参加某种知识竞赛的1000名学生的成绩,应采用什么样的抽样方法恰当?例3:一个单位的职工500人,其中不到35岁的有125人,35到49岁的有280人,50岁以上的有95人。为了了解这个单位职工与身体状况有关的某项指标,要从中抽取一个容量为100的样本。由于职工年龄与这项指标有关,试问:应用什么方法抽取?能在500人中任意取100个吗?能将100个份额均分到这三部分中吗?一、抽样的基本术语抽样:是通过抽取总体中的部分单元,收集这些单元的信息,运用数理统计的原理和方法,对总体进行推断的一种手段。抽取样本总体推断总体样本1、总体与样本。总体是指研究对象的全体,它是由研究对象中的单元组成的。总体中单元的数目称作总体容量。样本是从总体中按照一定方式抽取出的一部分元素的集合。抽样比:指样本量n与总体的容量N的比例2、个体与抽样单位:个体是收集信息的基本单位,即分析单位。个体可以是人,也可以是家庭、组织、社区等,也可以是文化产物,例如文章、杂志、歌曲、词汇等。抽样单位是一次直接的抽样所使用的基本单位。二者比较:A:个体与抽样单位在有些研究中是相同的,有时又是不同的。(与选用的抽样方法有关)例如:从某省总数为12.8万人的大学生总体中,按一定方式抽取1000名大学生进行调查,单个的大学生既是构成某省12.8万名大学生的个体(也就是我们所要分析的对象),又是我们从总体中一次直接抽取1000名大学生的样本时所用的抽样单位。但是,当我们从这一总体中一次直接抽取出40个班级,而以这40个班级中的全部学生(假定正好1000名)作为我们的样本时,抽样单位(班级)与个体(学生)就不是一样的了。B:在实际抽样中,抽样单位往往是多层次的。例如:上面的例子,要抽取1000名学生,可先抽取若干学校,然后从这些学校样本中抽取若干班级,最后从班级样本中抽取学生样本。这时抽样单位是学校、班级、学生三种,分别称为初级抽样单位、次级抽样单位和终极抽样单位。3、抽样框又称抽样范围,它是指一次直接抽样时总体中所有抽样单位的名单。在一次抽样中,抽样框的数目是与抽样单位的层次相对应的。上面的例子中有三个层次的抽样单位:学校、班级、学生,则对应的抽样框也应有三个:全部学校的名单、抽取的学校样本中的全部班级的名单、抽取班级中的所有学生的名单。4、参数值与统计值:参数值也称总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有个体的某种特征的综合数量表现。在统计中最常见的总体值是某一变量的平均值例如:平均年龄、平均收入等。总体值只有通过对总体中的每一个个体都进行调查或测量才能得到。统计值也称样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有个体的某种特征的综合数量表现。样本值是从样本的所有个体中计算出来的,它是相应的总体值的估计量。抽样的目的之一,就是通过这些样本值去估计和推断各种总体值。抽样设计的目标,就是尽可能使所抽取的样本的估计量接近总体的参数值。5、抽样误差:总体的异质性和样本与总体范围的差异性,在用样本的统计值去推算总体的参数值时总会有偏差,这种偏差就是抽样误差。它是样本代表性大小的一个标准。当总体相当大时,可能被抽取的样本非常多,不可能列出所有的实际抽样误差,而用平均抽样误差来表征各样本实际抽样误差的平均水平。抽样误差是指样本指标值与被推断的总体指标值之差。主要包括:样本平均数与总体平均数之差;样本成数与总体成数之差。抽样误差的来源:1、登记性误差;2、代表性误差:A、系统性误差;B、偶然性误差,抽样误差特指偶然性误差。影响抽样误差的因素:抽样单位数的多少,总体中被研究标志的变动程度的大小。6、置信水平与置信区间:置信水平是指总体参数值落在样本统计值某一正负区间的概率。置信区间是指某一置信水平下,样本统计值与总体参数值的误差范围。在样本量相同的情况下,置信水平越高,置信区间越宽。在置信区间不变的情况下,样本量越多,置信水平越高例:美国Gallup(盖洛普)公司就消费者对美国产品质量的看法,对美国、德国和日本三国共计3,500名消费者(每个国家约1,200名)分别进行了调查,调查结果:有55%的美国人认为美国产品质量好,而只有26%的德国人和17%的日本人持同样看法。抽样误差为±3%,置信水平为95%。则这三个国家消费者的置信区间分别为:国别样本均值抽样误差置信区间美国55%±3%52%-58%德国26%±3%23%-29%日本17%±3%14%-20%二、抽样的基本程序1.界定总体界定总体就是在具体抽样前,明确从中抽取样本的总体的范围与界限。2.决定抽样方法各种不同的抽样方法都有自身的特点和适用范围。因此,我们在具体实施抽样之前,应依据调查研究的目的、界定的总体范围、要求确定样本的规模和要求量化的精确程度来决定具体采用哪种抽样方法。3.设计抽样方案4.制定抽样框制定抽样框就是依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并统一编号。5.实际抽取样本实际抽取样本就是在上述几个步骤的基础上,严格按照所选定的抽样方法,从抽样框中抽取一个个的抽样单位,构成样本。6.样本评估样本评估就是对样本的质量和代表性进行检验,其目的是防止因样本的偏差过大而导致的失误。三、抽样的原则1、目的性原则。目的性原则是指在进行抽样方案设计时,要以课题研究的总体方案和研究的目标为依据。以研究的问题为出发点,从最有利于研究资料的获取,以及最符合研究的目的等因素来考虑抽样方案和抽样方法的设计。2、可测性原则。可测性原则指的是抽样设计能够从样本自身计算出有效的估计或者抽样变动的近似值。在研究中通常用标准误来表示。通常,只有概率样本在客观上才是可测的,即概率样本可以计算出有效的估计值或抽样变动的近似值。但是,概率抽样也并不自动保证可测性。比如,从一个具有周期性变化的总体中选出一个系统样本,就不能保证这种可测性。3、可行性原则。可行性原则是指研究者所设计的抽样发难必须在时间上切实可行。它意味着研究者所设计的方案能够预料实际抽样过程中所可能出现的各种问题,并设计了处理这些问题的方法。4、经济性原则。经济性原则主要指的是抽样方案的设计要与研究的可得资源相适应。这种资源主要包括研究的经费、时间、人力等。目标性原则和可行性原则是首要的。抽样设计要服务于研究的目标,这是设计的出发点和基本目的。而可行性原则是设计方案得意实现的前提和保证。而可测性原则和经济性原则在一定程度上是相矛盾的。当为了减少误差增加样本的容量时,又同时意味着要增加抽样所需的资源。四、抽样的类型简单随机抽样分层抽样随机抽样系统抽样(等概率抽样)整群抽样多段抽样抽样方法偶遇抽样立意抽样非随机抽样配额抽样(不等概率抽样)雪球抽样第二节随机抽样技术一、简单随机抽样定义:简单随机抽样又称纯随机抽样,是指在特定总体的所有单位N中,不加条件随机抽取n个单元为样本,每个单元都有同样的概率被抽中的抽样方法。总体总量和总体均值NiiYY1NiiyNNYY11简单随机抽样分为重复抽样和不重复抽样两类。常用的简单随机抽样方法:直接抽样法、抽签法和随机数表法。直接抽样法、抽签法适用于总体规模稍小的抽样;随机数表法是用随机数表来抽样的方法,适用于总体规模稍大的抽样。具体步骤:(1)先取得一份总体所有元素的名单(即抽样框);(2)将总体中所有元素一一按顺序编号;(3)根据总体规模是几位数来确定从随机数表中选几位数码;(4)以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍;(5)根据样本规模的要求选出足够的数码个数;(6)依据从随机数表中选出的数码,到抽样框中去找出它所对应的元素。例如:N=528,即总体中有528个个体,我们从中选10个样本。解:首先在表中随机抽取三列,然后按照一定的顺序选出10个从001到528之间不同的数。例2:要考察某公司生产的500克袋装牛奶的质量知否达标,现从800袋牛奶中抽取60袋进行检验,利用随机数表抽取样本,如果从随机数表第8行第7列的数开始向右读,请你依次写出最先检验的5袋牛奶的的编号为?解:先将800袋牛奶按000,001,……,799进行编号。下面摘取随机数表的第7行至第9行:第7行:84421753315724550688770474476721763350258392120676第8行:63016378591695566719981050717512867358074439523879第9行:33211234297864560782524207443815510013429966027954第8行第7列为“7”,因为是用三位数编号(XXX),所以取3个数,既第一个被取出的编号为“785”,第二个取出“916”,因为916大于799,所以舍去,再往后取,955,也舍去;667,199,810(舍去),507,175……所以最先检验的5袋牛乃编号为:785,667,199,507,175简单随机抽样的特点:优点:没有人为因素的干扰,简单易行,是概率抽样的理想类型。局限性:1、在总体同质性较高时,用来比较准确有效,但在总体异质性较高时,则不一定效果好。这是因为当构成总体的个体差异较大时,用简单随机抽样方法抽出的样本由于在总体中的分布不一定均匀,所以很可能误差较大,不能很好地说明总体的性质和特征。2、当总体所含个体数目太多时,采用这种抽样方式不仅费时、费力、费钱,而且很难操作。二、分层抽样定义:在抽样之前将总体分为同质的、互不重叠的若干子总体,也称为层。然后在每一个层独立地随机抽取样本。分层抽样示意图按照确定分层样本数量的不同方式,分层抽样分为比例分层抽样和非比例分层抽样两种。1、比例分类抽样是指分类样本在总体样本中所占比例与该类所有单位在总体中所占比例相同;2、非比例分配法。当某个层次包含的个案数在总体中所占比例太小时,为使该层的特征在样本中得到足够的反映,可人为地适当增加该层样本数在总体样本中的比例。但这样做会增加推论的复杂性。优点:1、分类抽样能够克服简单随机抽样的缺点,适用于总体内个体数目较多,结构较复杂,内部差异较大的情况。2、精确度较高。3、便于对不同层面的问题进行探索。4、便于分工,使工作效率提高。缺点:如何分类通常由人们主观判定,因此要求调查者具备较高的素质与能力,并且必须事先对总体各单位的情况有较多的了解,而它们在实际工作中有时难以完全实现,这就会影响分类的科学性和精确性。三、系统抽样1、定义:又称等距抽样或机械抽样,对研究的总体按一定的顺序排列,每隔一定的间隔抽取一个单元的抽样方法。其做法是先编制抽样框,将总体的所有单位都按一定标志排列编号;再用总体的单位数除以样本的单位数,求得抽样间距;然后,在第一个抽样间距内随机抽出第一个样本单位,作为抽样的起点;接着,按照抽样间距依次抽取样本单位,直到抽足样本的单位数为止。抽选方法:设总体单元数为N,要抽n个单元为样本,先计算抽样间隔k=N/n,在1到k之间抽取一个随机起点r,则被抽中单元的顺序位置是:r,r+k,r+2k,…。当N不能被n整除时,采用圆形系统抽样方法。2、系统抽样的优点(1)没有抽样框时可代替简单随机抽样方法简单;(2)不需要辅助的抽样框信息;(3)样本的分布比较好;估计值容易计算。3、系统抽样的缺点(1)若抽样间隔与总体的某种周期性变化一致,会得一个差的样本;(2)不使用辅助信息使抽样效率不高;(3)使用概念框时,不能预先知道样本量;(4)没有一个无偏的方差估计量;(5)当N不能被n整除时会得到样本量不同的样本。我们国家的国家统计局的调查多采用系统抽样,它便于操作例:从600名大学生中抽选50名大学生进行调查,可以利用学校现有名册按顺序编号排序,从第001号编至600号。抽选距离N/n600/501
本文标题:第二章抽样方法
链接地址:https://www.777doc.com/doc-419781 .html