您好,欢迎访问三七文档
1附件二:国家卫生服务总调查样本地区和样本个体的抽取方法一、概述1.1国家卫生服务总调查抽查的原则是既要兼顾调查设计的科学性即样本地区和样本个体对全国和不同类型地区有足够的代表性,又不致于过多增加样本量而加大调查的工作量,即经济有效的原则。1.2抽样的方法是多阶段分层整群随机抽样法。第一阶段分层是以县(市或市区)为样本地区;第二阶段分层是以乡镇(街道)为样本地区;第三阶段分层以村为样本地区;最后是住户为样本个体。二、第一阶段分层整群抽样2.1第一阶段抽样着重解决两个基本问题:一是由于全国各县、市差异极大,如何确定第一阶段分层的基准;二是抽样比例,多大的县、市样本量能经济有效地代表全国和不同类型的地区。2.2第一阶段分层基准的确定第一阶段分层的指标是通过专家咨询法和逐步回归法筛选的10个与卫生有关的社会经济、文化教育、人口结构和健康指标。10个指标的主成份分析结果如表1。表⒈主要社会经济和人口动力学指标的主成份因子模型变量单位主成份1主成份2主成份3第一产业就业率%0.82*-0.490.1714岁人口比例%0.80*-0.10-0.49文盲率%0.69*0.320.22粗出生率‰0.69*0.35-0.10粗死亡率‰0.67*0.510.33婴儿死亡率‰0.67*0.60*-0.02人均工农业产值(元)-0.65*0.53*0.12第二产业就业率%-0.84*0.45-0.10初中人口比例%-0.92*0.02-0.0465+人口比例%-0.10-0.190.93*从主成份分析中可以看出主成份1与绝大多数变量有十分显著的关联,意义十分明确,而且代表10个变量整体信息的51.22%。其值的大小可以综合反映一个地区社会经济、文化教育、人口及其健康的发展。因此,确定主成份1为分层的基准称它为分层因子。2.3第一阶段的聚类分层在计算各县、市分层因子的得分后,用K-Means聚类分析方法将总体分为组间具有异质性和组内具有同质性的五类地区即五层。聚类分层的结果第一层有201个县(市或市区),占整个县(市或市区)的8.2%;第二层有650个县(市或市区),占26.5%;第三层有698个县(市或市区),占28.5%;第四层有691个县(市或市区),占28.2%;第五层有212,占8.6%。2表⒉显示了各层因子得分和选择的社会经济等变量的均值,可见各层呈明显的梯度。可以认为,第一层所在的市县,是社会经济、文化教育和卫生事业发展以及人群健康状况好的地区,第二层是比较好的地区,第三层是一般性地区,第四层是比较差,第五层是差的地区。表2主要社会经济和人口动力学指标的主成份因子模型市县因子得分社会经济和人口动力学指标层别数均数距离GNPAEPILLITCDRIMR1201-2.43543210.28333015.719.75.117.52650-0.66382164.6683564.623.75.726.236980.06921655.0045083.532.46.331.446910.57761264.5734188.143.67.449.152121.7457539.6131990.066.811.7121.42.4第一阶段分层等概率多种样本容量的抽样用经济有效的样本代表总体是抽样调查的精髓。样本量的确定基于以往的经验和其他国家抽样调查样本的设计,首先给定一个样本量大小的范围,确定抽取样本量为120,90,60,45,30五个大小不等的样本。为了保证各层每一个县(市或市区)都有同等被抽取为样本的概率,必须考虑不同大小样本量的样本在各层的分配,即按比例的分层抽样。见表⒊。表⒊不同大小样本量样本在各层的分配层数全国不同大小样本量样本的分配:合计(%)12090604530第一层201(8.2)108542第二层650(26.5)322316118第三层698(28.5)342617139第四层691(28.2)342517138第五层212(8.6)108543按系统随机抽样方法,每个不同大小样本量的样本抽取6次。同一样本量的6次抽样,通过计算每次抽样样本各变量的统计量,分别与总体各变量参数进行比较,从中筛选出与总体参数最为接近的那个样本,作为该样本量的最佳抽取样本。2.5第一阶段最佳样本量样本的选择与评价⑴不同样本量样本各变量均值与总体均数的比较:如果将不同样本量样本各变量的均值与总体各变量的均数绝对误差,绝对误差与总体均数之比为相对误差,同一样本各变量的相对误差具有可加性,其均数称为该样本各变量的平均相对误差。平均相对误差可作为判断不同大小样本量样本对总体代表性的一个尺度。同时,用“1-平均相对误差”作为精确度。表⒋显示了不同样本量样本各变量的均数,与总体各变量比较的相对误差、平均相对误差和精确度。从不同样本量样本来看,平均相对误差随着样本量的减少而增大。如样本量从120减少到60,平均相对误差由1.4%增加到2.7%,增加了62%,而样本量从60减少到30,平均相对误差从2.7%增加到5.6%,增加了一倍以上。样本量为120,90,60的样本精确度均大95%,也就是说样本量大于60就可对总体有较好的代表性。⑵不同样本量样本各变量的分布与总体分布的比较:样本变量的分布与总体分布是否吻合也是衡量样本对总体代表性的一个尺度。表⒌列出了不同样本量各变量分布与总体分布卡方检验的结果。从不同样本各变量分布与总体分布的结果,平均卡方值小于9.49这一差异有显著性水平的样本量为120,90和60。鉴于上述分析,故可认为,样本量大于60的样本,各变量的分布大多与总体分布相拟合,对总体有较好的代表性。见表5。3⑶不同样本量样本分散度的评价:样本分散度指样本中各层的变量统计量对总体各层的代表性。在第一层中,样本量为120和90的样本,平均每个指标的精确度均大于95%;样本量为60的样本,精确度为89.4%。从第二层到第四层,样本量为120和90的各个样本,平均每个指标的精确度都大于95%;第五层样本量为120,90和60的各样本,精确都分别为94.1%,92.5%和93.9%,与上述四层相比,精确度略差一些。也就是说,要对总体各层有较好的代表性,样本量至少为90。详见表6。2.6考虑到经济有效的原则和对全国、不同类型的地区和上述每个指标的代表性,国家卫生服务总调查的县(市或市区)样本容量取90。具体抽出的县、市或市区见附件5。三、第二阶段整群随机抽样3.1在上述抽取的90个“样本县(市或市区)”中,以乡镇(街道)为第二阶段整群系统随机抽样单位。全国每个乡镇(街道)被抽取为“样本乡镇(街道)”的概率是1∶160。第二阶段整群系统随机抽样全国共抽取450个乡镇(街道)。平均每个“样本县(市或市区)”抽5个乡镇(街道)。第二阶段分层整群抽样具体由各样本县(市或市区)按下述方法抽取。3.2第二阶段整群随机抽样的基准由于一个县(市或市区)内社会经济、文化教育和卫生状况的差异远小于全国各县、市之间的差异,因而确定县(市或市区)的抽样基准相对容易。根据我国各县(市或市区)的基本特征、实际的可操作性和以往抽样调查常用的指标,确定采用人口数(或人均收入)作为分层基准。3.3第二阶段整群随机抽样的的方法①将样本县(市或市区)所有的乡镇(街道)按人口数的多少(或人均收入的大小)由多到少依次排序;②由多到少依次计算人口数(或人均收入)的累计数;③计算抽样间隔,用累计的人口总数(或人均收入累计总数)除于抽取的样本数(累计总数/5);④用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本乡镇(街道),然后加上抽样距离确定第二个样本乡镇(街道),依次类推确定第三至五个样本乡镇(街道)。3.4第二阶段整群随机抽样实例某个样本县共有18个乡、镇,要从该样本县抽取5乡镇作为样本。根据抽样方案的要求,第一步人口数的多少由大到小排序,并计算累计数(该县人口累计数即人口总数为210100),见表6;第二步计算抽样间隔,用人口总数除于抽样的样本数,248600/5=49720,该县乡镇整群抽样的抽样间隔为49720;第三步确定第一个随机数,取一张人民币,其编号的为FP59243854,取后5位数是43854,所取的后5为数不能大于抽样间隔数,如大于再取一张人民币.该后5位随机数接近第2编号即平湖镇后面的累计数,因此确定第2号平湖镇为第一个样本;第四步用第一个样本的累计数加抽样间隔,即43000+49720=92720,该数接近第5编号即新龙乡的累计数,确定第5号新龙乡为第二个样本。第五步用第二个样本的累计数加抽样间隔,即100900+49720=142920,该数接近第8编号新原乡的累计数,确定第8号新原乡为第三个样本;同样的方法确定第⒔号和第⒙号即桐连乡和四顶乡。这样,五个样本乡镇就确定了。4表6.第二阶段整群随机抽样的实例编号乡镇人口数累计编号乡镇人口数累计编号乡镇人口数累计⒈城关镇2200022000⒎平原乡16400134900⒔新店镇10000205500⒉平湖镇2100043000*⒏新原乡15000149900*⒕定安乡9500215000⒊玉阳镇2000063000⒐古农乡14000163900⒖五岖乡8900223900⒋五一乡1950082500⒑王店乡11000174900⒗五庙乡8500232400*⒌新龙乡18400100900*⒒双莲乡10500185400⒘双山乡8200240600⒍湖泊乡17600118500⒓桐连乡10100195500*⒙四顶乡8000248600四、第三阶段随机抽样4.⒈第三阶段随机抽样的基准和样本容量⑴在同一个乡镇(街道)内,各村(居委会)的经济发展和卫生状况基本上变异不大。因此,第三阶段不用分层,直接采用随机整群抽样的方法从“样本乡镇(街道)”中抽取样本村(居委会)。但是,抽样时应按各村人均收入或人口数作为标识进行排序。第三阶段随机抽样由调查指导员负责。⑵每个“样本乡镇(街道)”整群随机抽取2个村(居委会),全国共抽取900个村(居委会),全国每村(居委会)被抽为样本的概率为1:1120。4.2第三阶段整群随机抽样的的方法①将样本乡镇(街道)所有的村(居委会)按人均收入的多少(或人口数的大小)由多到少依次排序;②由多到少依次计算人均收入(或人口数)的累计数;③计算抽样间隔,用累计总数除于抽取的样本数(累计总数/2);④用纸币法(随便拿出一张人民币,看人民币的号码与最初累计数哪一个数接近,取这个数为开始数)随机确定第一个样本村(居委会),然后加上抽样距离确定第二个样本村。4.3.第三阶段随机整群抽样的实例第一步将所有的村按人均收入的多少由大到小排序,并计算累计数;第二步计算抽样间隔:7337/2=3669;第三步确定第一个随机数,取一张人民币,其编号的后4位数是2273,这个随机数接近第4编号的累计数,因此确定第4号村为第一个样本;第五步用第二位的累计数加抽样间隔(2805+3669=6474),接近第⒑编号的累计数,确定第⒑号为第二个样本。表7.第三阶段随机整群抽样实例编号村人均收入累计数编号村人均收入累计数⒈镇西店村724724⒎长生庙村5894606⒉唐家铺村7211445⒏王甸子村5745180⒊镇东村6892134⒐民生村5715751*⒋镇北村6712805*⒑清平村5446295⒌李家店村6103415⒒老平埠村5346829⒍湖泊村6024017⒓高坝村5087337*为随机抽取的样本数。五、样本个体的抽样5.1最终的抽样单位是住户。在每个“样本村(居委会)”中按20%的比例随机抽取住户,平均每个村抽60户,全国共抽取54000户。全国平均每户被抽取为样本的概率为54000/28000万,约五千户中抽一户。如果按每户四个人计算,人口抽样比为1:5000左右。5.2抽户方法是各样本乡镇(街道)的调查指导员上述抽样比例在样本村(居委会)随机抽取,具体方法:5①按人口普查的编码顺序,按门牌号、楼号、单元号、门号从小到大排列;②对同一门牌号,同一个大院和楼号的,按门号从小到大
本文标题:抽样方法案例
链接地址:https://www.777doc.com/doc-4300539 .html