您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 现场调查中的抽样方法(PPT75页)
现场调查中的抽样方法练习•人群总数10000(男4000人,女6000)•分层抽样,男性抽100人,女性抽1000人,共1100人•样本中共105人抽烟,其中男性55人,女性50人问:人群总吸烟率是多少?练习•人群总数10000(男4000人,女6000),抽取样本男100人(55人抽烟),女1000人(50人抽烟)。•问:人群总吸烟率是多少?–直接算法:总吸烟率=(55+50)/(100+1000)=9.5%–正确算法:男4000抽100,每人代表40人(W=40)女6000抽1000,每人代表6人(W=6)总吸烟率=(55*40+50*6)/(100*40+1000*6)=25%调查的分类•普查(全面调查)•典型调查(案例调查)•抽样调查普查Census•人群中每个人都调查•没有抽样误差•人群很小时可以使用•人群数很大时耗费人、财、物力,质量不易控制,非抽样误差大•不适于患病率低和诊断技术比较复杂的疾病•无应答率常常较高典型调查(案例调查)有目的地选定典型的人、单位进行调查,对事物特征作深入了解。没有随机原则,不能估计总体参数,只能对总体特征作经验推论,不属于统计推断的范畴抽样调查抽样调查:从总体中抽取一定数量的观察单位组成样本,根据样本信息来了解总体特征。基本概念•总体:根据研究目的确定的同质观察单位的全体•样本:从总体中随机抽取的部分观察单位的总和•抽样的目的:用样本信息推断总体特征•抽样误差:由抽样造成的样本信息偏离总体参数•可计算总体参数的95%可信区间•95%可信区间:以样本信息推论总体时,计算出的可信区间有95%的概率覆盖总体参数。高血压患病率为20%(15%-28%)高血压患病率为18%(4%-51%)•X市居民甲状腺结节患病情况调查:在沿海地区、山区、平原地区各随机抽取1个村庄,每个村中再随机抽取100户家庭,每个家庭的全部成员作为调查对象。•在某地区的医院进行医院感染情况的抽样调查,抽中40所医院。实施过程中,有些医院不配合。可根据医院特征(如同级、同类、病床数)替换愿意配合的医院。•调查某地区腹泻患病率,采用多阶段抽样方法。第1阶段:兼顾地理位置、经济水平、人口数量、工作基础和意愿,选择A县、B县,C区和D县作为调查点;第2阶段……•在某地区进行某病患病率调查,将乡镇按收入水平分层3层(高中低三层分别有150、120、100个乡镇),在每层各抽取10个乡镇,每个乡镇再各随机抽取2个村庄,抽中村庄内居民全部调查。•抽样方法设计如何?•每个村庄约60人,共调查到2400人,其中240人患病,患病率为多少?两类抽样方法•非概率抽样:无法确定被调查对象的概率,无法推断总体,常用于探索性研究–碰巧抽样或方便抽样:超市里走出的前10个人–意图抽样:调查者有意的抽取某些对象,认为能代表某类人群。如:选择一个大城市,一个城镇,一个乡村地区–滚雪球抽样•概率抽样:每个个体有一个可计算的非零概率,可计算抽样误差,可推断总体概率抽样调查Samplesurveys•按一定的概率,在人群中抽取一部分人来调查•以样本统计量估计总体参数•节省时间、人力、物力,调查可以做得更细致•不适用于患病率很低疾病常用概率抽样的方法•简单随机抽样•系统抽样(等距抽样、机械抽样)•分层抽样(分类抽样)•整群抽样将总体的全部观察单位编号,再用随机数字等方法随机抽取部分观察单位组成样本例:某中学2100名学生,随机抽200人估计近视率•先将所有学生编号:1,2,3,4…,2100•查随机数字表639407106376358703047988……947107614873041688……注意:8400以上的数字不要•产生随机数字:=rand()=randbetween()随机数字发生器(练习)单纯随机抽样Simplerandomsampling(SRS)1,2,3,4,……21002101,2102,2103,2104,……42004201,4202,4203,4204,……63006301,6302,6303,6304,……84008401,8402,8403,8404,…9999…105001600个数2100个数1600个数500个数单纯随机抽样•优点:均数(或率)及标准误的计算简单•缺点:总体例数多时,需有全部名单,编号将全部观察单位根据某一顺序编号,计算抽样间隔,随机抽第k号(小于抽样间隔)观察单位,然后依次用相等间隔抽取观察单位组成样本•先将所有学生编号:1,2,3,4…,2100•确定抽样间隔:2100/200=10.5(人),取10•在1-10之间随机找一个数字,例如4•依次机械抽取:14,24,34,…,1994,2004系统抽样系统抽样•优点:–易于理解,易行–样本是均匀分布的,抽样误差小于单纯随机抽样,对样本进行方差估计时,可以将它看成是SRS•缺点:–当抽样单位的排列有周期趋势时,抽样结果可能有偏差根据样本量估算,需要抽取该社区1/10的儿童采血检测;每个家庭有门牌号,从1-2000号,单号一排,双号一排。调查者首先用随机数字表从1-10中选一个数字,然后用系统随机方法抽取该街道的1/10有儿童的家庭。•这一抽样方法有什么潜在问题?在农村某地区开展儿童维生素D缺乏调查分层抽样按影响较大的某种特征将总体分成若干组(统计上叫做”层”),再从每一层内随机抽取一定数量的观察单位•分层变量最好是层间差别大,层内差别小•层内样本量分配–按比例分配–等额分配–最优分配•按照性别分层,男生和女生•每层中随机抽取100名学生层1层2层3总体层1层2层3总体分层抽样•优点:–减少抽样误差,分层后增加层内同质性–便于对不同的层采取不同的抽样方法,如城乡分层–还可对不同层独立进行分析(各层要满足样本量)先将总体分成若干个群,每个群包括若干观察单位,再随机抽取k个群,每个群的全部观察单位组成样本整群抽样PopulationofLstrata,stratumlcontainsnlunitsPopulationofCclustersTakeSRSineverystratumTakeSRSofclusters,sampleeveryunitinchosenclusters群间差异越小、抽取的“群”越多,精度越高,样本量确定后,宜增加“群”数而减少群内的观察数•学校共有70个班(各个班级情况相似时比较好)•随机抽取20个班(各班人数越少,抽班级数越多越好)•20个班级的所有学生都调查整群抽样整群抽样•优点:–便于组织、节省经费,容易控制调查质量•缺点:–当样本例数一定时,抽样误差大于单纯随机抽样的误差–抽取的群数应尽量多(15个),群数太少抽样误差大各种抽样方法的方差分层抽样系统抽样单纯随机抽样整群抽样设计效力(DesignEffect):样本量不变时,实际抽样方法的方差与单纯随机抽样的方差的比值RatioofactualvariancetovarianceassumingSRS,givensamenDE一般为1.3-3多阶段抽样•单阶段抽样:四种基本抽样方法都是通过一次抽样产生一个完整的样本•多阶段抽样:总体大,情况复杂,分布广,可分若干阶段进行抽样,每个阶段可用上述四种方法中任意一种进行抽样•例:在某省进行某项调查:o第一阶段:用系统抽样法随机抽取30个县o第二阶段:用SRS法每县抽取10个自然村o第三阶段:用SRS法每村抽取10名村民–第1阶段为初级抽样单位PSU(primarysamplingunit)–第2阶段为二级抽样单位SSU(secondsamplingunit)–第3阶段为三级抽样单位TSU(tertiarysamplingunit)初级抽样单位多,调查结果抽样误差小,精度高建议不少于10-15个•第1阶段:50个班级中随机抽取20个班级•第2阶段:每个抽中班级中随机抽取3个小组•第3阶段:每个小组中随机抽取4名学生初级抽样单位:班级二级抽样单位:班级里的小组三级抽样单位:学生阜阳市各级医疗机构治疗发热儿童用药现况调查•2008年安徽省阜阳市发生EV71手足口病疫情–3月1日至5月9日共报告6049病例–99%的为14岁以下儿童–大多数病例以急性发热起病•EV71重症危险因素研究发现–首诊在村级医疗机构–氨基比林和激素类药物调查目的•了解阜阳市各级医疗机构治疗发热儿童的用药现状•发现存在的问题及影响因素•为规范发热儿童用药提供依据调查对象和内容•各级医疗机构的儿科医生:访谈用药习惯•各级医疗机构发热儿童的治疗处方:各种药物的使用情况样本量计算•根据简单随机抽样计算公式,以氨基比林使用比例为p,σ=5%,设计效率1.44•根据预调查获得各级医疗机构氨基比林使用比例计算样本量医院级别p样本量市(县)0.12234乡镇0.25415村级0.17312•市级和县级共8家医院•乡镇卫生院171所•村诊所:每个乡镇有20-40所左右•调查3-6月份的各级医院的处方用药情况,如何抽样?处方:分层多阶段抽样抽取市(县)、乡镇及村级医疗机构市、县级医院:8所全部调查乡镇医院:171所中随机抽取30所村诊所:在抽中的30个乡镇医院所在乡镇中,分别随机抽取1-2个村卫生室,共40所抽取各医院2008年3-6月治疗发热儿童的用药处方市、县级医院:每月随机抽取8张,共32张乡镇医院:每月随机抽取4张,共16张村卫生室:每月随机抽取2张,共8张医生:分层多阶段抽样抽取市(县)、乡镇及村级医疗机构市、县级医院:8所全部调查乡镇医院:171所中随机抽取30所村诊所:在抽中的30个乡镇医院所在乡镇中,分别随机抽取1-2个村卫生室,共40所抽取到医院的儿科医生全部调查某市医务人员甲型H1N1流感疫苗接种意愿调查背景•2009年甲型H1N1流感大流行,防控工作再次成为全球关注焦点•流感疫苗----有效防控流感的手段WHO和我国准备为医务人员优先接种甲型H1N1疫苗•医务人员是特殊群体,非常重要:–救治病人的中坚力量–暴露的高风险人群–感染后易传给患者,医院内传播•文献显示医务人员流感疫苗接种率较低目的•了解该市医护人员接种甲型H1N1疫苗的意愿,分析不愿接种的原因,为政府制定流感疫苗接种策略提供科学依据研究人群:该市医护人员如何抽样?医院级别医院数量医护人员总数三级1814400二级2510000一级452700合计8827100采用分层二阶段抽样方法•第一阶段:先抽医院•第二阶段:再抽取医护人员第一阶段抽取多少医院合适?•抽取5家?•抽取10家?•抽取20家?•抽取30家?•抽取50家?抽取的Cluster越少,抽样误差越大•数理统计推理和中心极限定理表明,从正态总体中随机抽取例数为n的样本,样本均数服从正态分布•对样本均数这个正态变量采用u=(样本均数-总体均数)/σ变换,变换为标准正态分布N(0.1),即u分布。•实际工作中σ往往是s来估计的,这时就是t变换了,其结果就是t分布•可信区间估计时,因为σ未知,一般按照t分布的原理,95%CI=Xbar±SEν=1,t=12.7ν=2,t=4.3ν=3,t=3.18,2.2(ν=10)2.1(ν=20)2.0(ν=30)1.96(ν=infinite),t随着cluster增加,95%CI越精确•假设医院疫苗接种意愿率≈50%,•抽4家,95%CI:44%-56%•抽8家,95%CI:45.7%-54.3%•抽13家,95%CI:46.2%-53.9%•抽18家,95%CI:46.5%-53.5%采用分层二阶段抽样方法•第一阶段:共随机抽取30家医院,其中:三级医院抽取5家二级医院抽取10家一级医院抽取15家•第二阶段:抽取医护人员每家医院中随机抽取若干名医护人员每家医院中抽取多少名医护人员?估计总体率的样本量(按简单随机抽样计算)22)1(ppunαα=0.05,Uα=1.96,p=估计总体率,δ=容许误差,一般取总体率95%可信区间宽度的一半Nnnnc/1医护人员甲流疫苗愿意接种率50%,α=0.05,δ=±5%如果p=0.5,则n=1.96×0.5×(1-
本文标题:现场调查中的抽样方法(PPT75页)
链接地址:https://www.777doc.com/doc-419165 .html