您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 网络调查与信息处理课程4.抽样方法
1第4讲抽样方法一、概率抽样方法(一)简单随机抽样(二)系统抽样(三)分层抽样(四)整群抽样(五)多段抽样(六)PPS抽样(七)户内抽样二、非概率抽样方法(一)偶遇抽样(二)判断抽样(三)定额抽样(四)雪球抽样一、简单随机抽样(一)定义按等概率原则直接从含有N个元素的总体中抽取n个元素组成样本(Nn)。(二)操作:1.抽签法把总体的每一个单位都编号,将这些号码写在一张张小纸条上,然后放入一个容器如纸盒、口袋中,搅拌均匀后,从中任意抽取,直到抽够预定的样本数目为止。一、简单随机抽样•举例:某系共有学生360人,系学生会采用简单随机抽样的办法,从中抽取出60人进行调查。•操作:S1:从系办公室拿到一份全系学生的名单S2:对名单中的所有学生进行编号(从001到360)S3:在360张纸条上分别写上001,002,……,360的号码S4:把这360张写好不同号码的小纸条放在一个盒子里,搅拌均匀后,随意地摸出60张写有不同号码的小纸条。S5:按这60张小纸条上所写的号码找到学生名单上所对应的60位同学,这60位同学就构成了他们本次调查的样本。一、简单随机抽样2.随机数表法S1:先取得一份调查总体所有元素的名单(即抽样框)S2:将总体中所有元素一一按顺序编号S3:根据总体规模是几位数来确定从随机数表中选几位数码S4:以总体的规模为标准,对随机数表中的数码逐一进行衡量并决定取舍S5:根据样本规模的要求选择出足够的数码个数S6:依据从随机数表中选出的数码,到抽样框中去找它所对应的元素。一、简单随机抽样•举例:某总体共3000人(4位数),需要从中抽取100人作为样本进行调查。•操作:S1:得到一份总体成员的名单S2:对总体中的每一个人从1到3000进行编号S3:根据总体规模为4位数而确定从随机数表中选4位数码S4:从随机数表中的任意位置开始,沿任意方向选择4位数。S5:以3000为标准对所选的数码进行取舍,凡小于或等于3000的数码就取出来,凡大于3000的数码以及已经选出的数码则不要,直到选够100个号码为止。S6:按照所抽取的号码,从总体名单中找到它们对应的100个成员。这100个成员就构成一个调查的样本。2二、系统抽样(一)定义系统抽样又称等距抽样或间隔抽样,它是把总体的元素进行编号排序后,再计算出某种间隔,然后按这一固定的间隔抽取元素来组成样本的方法。(二)操作S1:给总体中的每一元素按顺序编上号码,即制定出抽样框。S2:计算出抽样间距。二、系统抽样S3:在最前面的K个元素中,采用简单随机抽样的方法抽取一个元素,记下这个元素的编号(假设所抽取的这个元素的编号为A),它称作随机的起点。S4:在抽样框中,自A开始,每隔K个元素抽取一个元素,即所抽取元素的编号分别为A,A+K,A+2K,……,A+(n-1)K。S5:将这n个元素合起来,就构成了该总体的一个样本。二、系统抽样•举例:在某大学总共3000名学生中,抽取一个容量为100的大学生样本。•操作:S1:将3000名学生的名单依次编上号码S2:按上述公式求得抽样间距为:K=3000/100=30S3:在1~30的数码中,采用简单随机抽样的方法抽取一个数字,假如抽到的是12,那么就以12为第一个号码,每隔30名再抽一个。这样,我们便得到12,42,72,……,2982,总共100个号码。S4:再根据这100个号码,从总体名单中一一对应地找出100名学生,这100名学生就构成本次调查的一个样本。二、系统抽样•系统抽样的一个十分重要的前提条件是,总体中元素的排列相对于所研究的变量来说应该是随机的,即不存在某种与研究变量相关的规则分布。•有两种情况需要特别注意:•一是总体名单中,元素的排列具有某种次序上的先后、等级上的高低的情况•二是在总体名单中,元素的排列上有与抽样间隔相对应的周期性分布的情况。三、分层抽样(一)定义与操作•分层抽样又称类型抽样,它是先将总体中的所有元素或个体按照某种特征或标志(如性别、年龄、职业或地域等)划分成若干个子总体或层次,然后在各个子总体或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本。•举例:在一所大学抽取学生进行调查,先把总体分为男生和女生,然后采用简单随机抽样或系统抽样的方法,分别从男生和女生中各抽取100名学生。这200名学生所构成的就是一个由分层抽样所得到的样本。三、分层抽样分层抽样法的优点(1)在不增加样本规模的前提下降低抽样误差,提高抽样的精度。(2)非常便于了解总体内不同层次的情况,便于对总体中不同的层次或类别进行单独研究,或者进行比较。分层抽样法在实际运用时要考虑的问题3三、分层抽样(1)分层的标准通常采用的原则有:第一,以调查所要分析和研究的主要变量或相关的变量作为分层的标准。第二,以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。第三,以那些已有明显层次区分的变量作为分层变量。(2)分层的比例按比例分层按各种类型或层次中的单位数目同总体单位数目间的比例来抽取子样本的方法。某厂有工人600人,男工500人,女工100人。抽60人作样本,按比例分层抽样就是从男工中抽50人,女工中抽10人。三、分层抽样不按比例分层•一种情况是:当研究者可以判断出不同层内的个体相互之间的差异明显不同时。•另一种情况是:总体中有的类型或层次的个体数目太少。•我们采用不按比例分层抽样的方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较,但若要用样本资料推论总体时,则需要先对各层的数据资料进行加权处理,即通过调整样本各层的比例,使数据资料恢复到总体中各层实际的比例结构。四、整群抽样定义整群抽样是从总体中随机抽取一些小的群体,然后由所抽出的若干个小群体内的所有元素构成调查的样本的方法。举例•某大学有100个班级,每班30名学生。现要抽300名学生作为样本进行调查。•整群抽样:从全校100个班级中,采用简单随机抽样的方法(或系统抽样、分层抽样的方法)抽取10个班级,然后由这10个班级的全部学生构成调查样本。四、整群抽样整群抽样的优缺点•优点:简便易行、节省费用•缺点:样本的分布面不广、样本对总体的代表性相对较差整群抽样方法与分层抽样方法的区别不同子群相互之间差别很大,而每个子群内部的差异不大时,则适合于分层抽样的方法;反之,当不同子群相互之间差别不大,而每个子群内部的异质性程度比较大时,则适合于采用整群抽样的方法。五、多段抽样定义多段抽样又称多级抽样或分段抽样,它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。具体做法先从总体中随机抽取若干大群,然后再从这几个大群内抽取几个小群,这样一层层抽下来,直至抽到最基本的抽样元素为止。抽1000名工人的调查•方案甲:抽20个工厂,每个工厂抽50名工人•方案乙:抽5个工厂,每个工厂抽200名工人•哪种方案好?五、多段抽样•要在类别和个体之间保持平衡;一般来说,类别相对较多、每一类中个体相对较少的做法效果较好。多段抽样的优缺点•优点:不需要总体的全部名单,抽样比较容易进行,适用于范围大、总体对象多的社会调查。•缺点:误差较大•同等条件下减少多段抽样误差的方法是:相对增加开头阶段的样本数而适当减少最后阶段的样本数。4六、PPS抽样多段抽样的暗含假定•在每一个阶段抽样时,其元素的规模是相同的。•现实生活中,这一暗含假定往往难以满足。举例•一个城市有10万户居民,分属200个居委会,从中抽取1000户居民进行调查。•多段抽样:先从200个居委会中随机抽取20个居委会,然后在所抽取的20个居委会中,每个居委会随机抽取50户居民。六、PPS抽样当每个居委会所包含的居民户数一样时,每户居民在上述多段抽样时,被抽取的概率是相同的。当居委会规模大小不一时,情况会发生变化•甲居委会有800户,乙居委会有200户。它们在第一阶段都被抽中,第二阶段分别从它们中抽取50户。此时,甲居委会中居民户被抽中的概率为:(20/200)*(50/800)=1/160;乙居委会中居民户被抽中的概率为:(20/200)*(50/200)=1/40。•乙居委会中居民户被抽中的概率是甲居委会中居民户被抽中概率的4倍。六、PPS抽样PPS(SamplingwithProbabilityProportionaltoSize)抽样:以阶段性的不等概率换取最终的、总体的等概率。其做法是:在第一阶段,每个群按照其规模(其所含元素的数量)被给予大小不等的抽取概率(群越大,其被抽中的概率也越大)。第二阶段,从每个抽中的群中都抽取同样多的元素(实际上也是不等概率)。六、PPS抽样上述例子中,PPS抽样法下:•甲居委会中居民被抽中的概率为:20*(800/100000)*(50/800)=1/100•乙居委会中居民被抽中的概率为:20*(200/100000)*(50/200)=1/100PPS抽样法的具体操作•从全市100家不同规模的企业(总共20万名职工)中抽取1000名职工进行调查。•先从100家企业中随机抽取20家企业,然后再从这20家企业中分别抽取50名职工构成样本。七、户内抽样市-区-街道-居委会-家庭户-成年人成年人成年人成年人(访谈对象)1.Kish选择法:S1:调查表编号S2:印制“选择卡”S3:对每户家庭中的成年人进行排序和编号(男性在前,女性在后;年纪大的在前,年纪小的在后)S4:调查员随机地选择一种调查表,并按照调查表上的编号找出编号相同的那种“选择表”,根据家庭人口数目从“选择表”中查出应选个体的序号,最后对这一序号所对应的那个家庭成员进行访谈。5七、户内抽样2.生日法S1:随机确定一年中的某一天为标准日期S2:了解所抽中的家庭户中18岁以上的人口数,以及每人的生日是几月几号S3:计算出每人的生日距离标准日期的天数S4:从中选出生日距离标准日期最近的人作为调查对象八、非概率抽样(一)偶遇抽样(二)判断抽样(三)定额抽样(四)雪球抽样
本文标题:网络调查与信息处理课程4.抽样方法
链接地址:https://www.777doc.com/doc-4315326 .html