您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > MRAF-Ver2C5抽样设计
1第5章抽样设计2预测结果实际结果阿尔夫·伦敦55%阿尔夫·伦敦37%富兰克林·罗斯福41%富兰克林·罗斯福61%•——防弹钢板应焊在哪里?–减少轰炸机的伤亡,就要往飞机上焊防弹钢板;但不是机身全部而是某些部分。数学家沃尔德的方法十分简单。他把统计表发给地勤技师,让他们把飞机上中弹弹孔的位置报上来。他自己铺开一张大纸,画出轰炸机的轮廓,再把那些小窟窿一个个地填上去。画完后大家一看,飞机浑身上下都是窟窿,只有飞行员座舱和尾翼两个地方几乎是空白。–为什么是这样?防弹钢板应该焊在哪里呢?•——《文学摘要》的厄运案例:两种抽样两种命运35.1抽样调查与抽样设计•为什么选择抽样调查?–抽样调查的相对优势•在大多数情况下,选择抽样调查是因为,抽样调查相对于普查更具有优势,即抽样调查能在充分满足客户所需数据质量要求的前提下,提供一种更快、更节省的方法。–抽样调查的相对劣势•不支持小区域估计•不支持稀少个体的特征估计•调查误差•其它考虑4抽样设计的程序定义目标总体选择抽样框架制定抽样方法确定样本量执行抽样过程图5-1抽样设计过程5step1.定义目标总体•目标总体是客户所感兴趣并希望从中获取信息的所有个体的集合。目标总体定义源于调研设计开始阶段对调研问题和目标的系统陈述,涉及调研将从哪里获取数据信息,哪些人的观点、态度或反应对调研问题至关重要等。•定义目标总体的四个因素:–个体的类型,个人、家庭还是企业单位或其他;–个体的特征,Demographic、行为甚至心理特征等;–个体的地理位置,即区域范围;–调查的标准时点或时期。•调研者还须区分目标总体与调查总体。–目标总体通常只是概念性的;但调查总体则是实际调查所覆盖的总体,在抽样调查中也称为抽样总体。定义目标总体个体类型并不像看起来那么简单。例如,“农场主”可能是一项抽样调研所面对的总体,但是,什么样的人才算“农场主”?个体特征更是一个复杂因素。例如,单从人口统计特征考虑,目标对象是24岁以上的妇女,24~35岁的妇女,还是24~35岁、有学龄前儿童并且个人年收入超过24000元的职业女性?哪个才是调研者真正感兴趣的信息来源?6step2.制定抽样框架•抽样框架是供抽样使用的所有调查单位的名单。目标总体只是概念性的,而抽样框架则提供了一条辨别和联系调查总体中个体的有效途径。•作为抽样直接依据的抽样框架(清单)与目标总体不一致,可能遗漏了总体中的某些个体,或者包含了不属于这个总体的个体,都可能导致抽样框误差。7step3.选择抽样方法•在选择抽样方法时,需要决定用放回抽样还是不放回抽样,用概率抽样还是非概率抽样。•在放回抽样中,从抽样框架中选出一个个体并获得数据后,再把这个个体放回抽样框架中,所以个体可能会不止一次被抽中。•在非放回抽样中,一旦一个个体被抽中进入样本,它就会从抽样框架中剔除,不会被再次选中。•在放回和不放回两种抽样方式中,抽样估计值的计算方法有所不同。8step4.确定样本量•样本量是指包含在样本中的个体的数目。确定样本量需要考虑一系列的定性和定量的因素。定性考虑包括决策的重要性、研究性质、变量数目、分析的性质、发生率、完成率以及资源约束。–决策越重要,所需数据信息越多,就要求越多的样本量。–探索性研究所需样本量通常较小。–如果要对大量变量进行数据收集,就需要大的样本。–如果需要详细分析数据,样本量也应该较大。–发生率是指符合研究条件的人的百分率。越低则越多。–完成率是指完成调查的合格对象的百分率。越低则越多。–资源约束包括资金、时间和合格调查员的限制。9step5.现场抽样•抽样过程的执行,要求详细指定关于总体、抽样框架、抽样单位、抽样方法以及样本量的抽样设计决策如何履行。•如果抽样单位是家庭,就需要对家庭有一个操作化的定义,对于空缺的家庭单位以及无人在家情况下的复查应该指定相应方法,对所有抽样设计决策应该提供详细的信息。105.2制定抽样框架•抽样框架被定义为:供抽样使用的所有调查单位的名单。它为调查者提供了辨别和联系调查个体的有效途径。•一个抽样框应该包括下述部分或全部内容:–识别资料:如姓名、家庭住址、身份证号码等;–联系资料:确定个体所在位置,如地址/电话;–分类资料:提供区分调查对象的有用信息;–维护资料:像日期以及资料的变更信息等;•识别和联系资料是不可少的,而分类和维护资料有助于提高抽样的效率。11抽样框架的类型:1.名录框•定义:一份涵盖总体中所有个体的实际的或者概念的名录清单。区分两类名录框:•实际名录框,可取自各种不同的来源。例如:–商业注册:所有在经营的企业名录(由工商行管部门收集);–地址和邮编册:所有城市地区的住址和邮编(由邮政局收集);–电话号码簿:所有公开的、家庭的电话号码簿(由电信局收集)。•概念名录框–概念名录框常常是基于调查正在进行时才存在的总体。如:某天早9点至晚8点之间进入某购物中心停车场的所有车辆的名录。使用这些数据构造抽样框,须评估使用这些数据构造抽样框,须评估所需费用:建立与更新所费通常较为低廉;所需费用:建立与更新所费通常较为低廉;涵盖范围:是否能够充分地覆盖目标总体;涵盖范围:是否能够充分地覆盖目标总体;更新频率:更新频率、更新所耗时间及调查机构使用的滞更新频率:更新频率、更新所耗时间及调查机构使用的滞后时间;后时间;信息来源的稳定性:概念、分类或者内容上的任何变更都信息来源的稳定性:概念、分类或者内容上的任何变更都会导致抽样框架维护时出现严重问题;会导致抽样框架维护时出现严重问题;定义一致性:例如,不同的调查对住所的定义可能不同;定义一致性:例如,不同的调查对住所的定义可能不同;合法且正式的关系:调查机构和数据来源机构之间应该保合法且正式的关系:调查机构和数据来源机构之间应该保持一定形式的稳定关系持一定形式的稳定关系((如契约如契约));;建立文档:应该记录数据文件中涉及的变量指标及其形式。建立文档:应该记录数据文件中涉及的变量指标及其形式。当数据文件由不同人员掌管时,这一点尤其重要。当数据文件由不同人员掌管时,这一点尤其重要。12抽样框架的类型:2.区域框•区域框是指个体由地理区域构造的一种特殊的名录框,调查总体则由这些地理区域组成。•区域框适用于以下所述两种情况:–当调查本质就是地理性质的(如通过每平方公里的野生动物数来估计野生动物的总数);–或者调查机构不能获得一个适当的名录框。•区域框中的个体可以分不同的层次,上一级个体可以细分成许多下一级个体。抽样时只需对被抽中的那些最小的地理区域建立名录。多阶抽样经常使用区域抽样框架。13抽样框架的类型:3.多重抽样框架•多重抽样框架是两个或两个以上的抽样框架的组合,如名录框和区域框的组合,或者两个或两个以上名录框的组合。•当没有一个抽样框架(名录/区域)能够全部覆盖总体时,就需要使用多重抽样框架。•由于一个个体经常出现在多个抽样框架里,所以使用多重抽样框时面临的主要问题是,找出各个抽样框架之间重复的个体并将其消除。14抽样框架的评估•抽样框架的可能缺陷–不完全涵盖:指目标总体中的某些个体被排除在抽样框架之外。在抽样框完成到实施抽样调查这段时间内,有一些新个体会“出生”。–过涵盖:指抽样框架中包含了本来不属于目标总体的个体。–重复:指抽样框架中某个个体出现不止一次。如,使用使用多重抽样框架时。重复将导致对总量的高估以及估计的偏倚。–分类错误:指抽样框架中的分类变量取值的错误。比如,一个男性被错误地归类为女性,一个零售商被归类为批发商。15抽样框架评估的质量标准•关联度:关联性是对抽样框架与目标总体对应的程度和据此与目标总体的个体接触难易程度的一种度量。差别越大,调查总体和目标总体之间的差别就越大。•精确性:三个指标:1)评估涵盖误差;2)研究分类误差;3)密切注意联系资料的完整性和精确性。•时效性:时效应该用抽样框架的更新日期与调查标准日期的接近程度来计量。•费用大小:1)衡量为建立抽样框花费的总费用。2)将建立抽样框的费用与本次调查总费用进行比较。16如何建立合格抽样框架?•对可供选择的几个抽样框,要评估其适用性和质量;•尽量避免使用多重抽样框架;•对同一个目标总体多次调查时,应使用同一个抽样框架;•采用各种方法消除抽样框架中的重复,并更新抽样框架信息,以改善和维护抽样框架的质量;•对与抽样框架相关活动实施有效的质量监督程序;•通过实地考察或使用其它地图对区域框进行核对;•判定和监控行政管理部门资源的涵盖范围;•为目标总体、调查总体、抽样框、涵盖范围建立文档。175.3抽样方法抽样方法概率抽样非概率抽样简单随机抽样分层抽样整群抽样系统抽样方便抽样判断抽样配额抽样滚雪球抽样其他概率抽样图5-2抽样方法的分类与个体大小成比例的概率抽样18抽样方式的特点•概率抽样的特点–因为样本个体是随机选择的,所以可确定样本估计值的精确度,计算包含给定确定程度的真实总体值的置信区间,并对样本所在的目标总体做出推论。概率抽样技术本身操作起来相对复杂,成本较高,对抽样设计和现场抽人员的专业技术要求也高。•非概率抽样的特点–最大特点是操作简便,时效快,成本低。非概率样本可以产生对总体特征很好的估计,但是,无法对样本结果的精确度做出客观评价。19概率抽样方法•1.简单随机抽样(SRS)–为抽出一个简单随机样本,调研人员首先需要编辑一个抽样框,给其中每个个体分配一个号码,然后用计算机程序或随机数表(见附录B-1)生成随机数,根据这些随机数来确定哪些个体被包括进样本中。–简单随机抽样有许多优点:•最简单、最典型的概率抽样技术,易于理解;•抽样框不需要其他(辅助)信息就能进行抽样;•样本结果可以推论到目标总体上,大多数统计推论方法都假定数据是由简单随机抽样方法收集的。20概率抽样方法•2.系统抽样(SYS)–指将调查总体单位按照一定标志进行顺序排列,然后根据总体单位数和样本单位数计算出抽样间距(k),并从抽样框中每隔k个单位抽选一个个体,组成样本。•抽样间距(k)=总体单位数(N)/样本单位数(n)–总体单位的排序决定着SYS抽样的代表性,并决定系统抽样调查结果的统计效率。分三种情况说明:•如果排序与要研究的特征无关,则结果与SRS相似;•当排序与要研究的特征有关时,SYS能增加样本的代表性。•若排序呈现循环形式,抽样间距又与循环周期相同时,系统抽样会降低样本的代表性。21概率抽样方法•3.分层抽样(StratifiedSampling)–指将调查总体中的所有单位按照一定的属性或特征分成不相重叠的若干层次(或类),然后在每一个层次(或类)中进行简单随机抽样或等距抽样。–分层标志,一定是总体的某种重要属性或特征,而且与调查主题内容之间联系越密切越好。–分层的目的是使样本单位在各层、各类中分布比较均匀,具有更好的代表性。–分层抽样在操作上分为四种方法:比例分层、纽曼分层、德明分层和多次分层。分层抽样的操作方法分层比例抽样:指各层中所抽取的样本数量在样本总量中所占比例与各层总体单位数占总体单位数的比例相等。即,ni/n=Ni/N纽曼分层:按分层标准差调整各层样本数量。德明分层:按各层样本单元调查费用调整样本数量。多次分层抽样在对调查总体进行初次分层后,再对某些层进行第二次甚至第三次分层,以便可以在每层内按照SRS方法抽取样本。Si—各层样本的标准差iiiiiSNSNnnCi—第i层样本单元调查费iiiiiiiCSNCSNnn22概率抽样方法•4.整群抽样(ClusterSampling)–指首先将调查总体区分为若干群,然后采用SRS方法抽出部分群作样本,最后对这些样本群进行全面调查。即,两段整群抽样。在两段整群抽样中,如果不对所抽样本群进行全面调查,而是进一步将这些群划分为若干小群,然后按照随机原则抽出一部分群进行全面调查,就形成所谓的三段整群抽样。–整群抽样有以下主要优点:•由于样本相对集中,整群抽样能大大降低数据收集的费用。•当总体单位自然聚合成群时,创建地域抽样框较容易;•对于研究变量而言,若群内单元差异大且群间差异小,则整群抽样策略比
本文标题:MRAF-Ver2C5抽样设计
链接地址:https://www.777doc.com/doc-417483 .html