您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 抽样刁鹏飞-社会调查研究方法课10-27
社会调查研究方法课——公共管理硕士(MPA)2010,2011中国社会科学院社会学研究所刁鹏飞(博士、副研究员)社科院研究生院良乡校区,2011-10-27抽样与抽样调查抽样的概念、术语与程序概率抽样非概率抽样样本量计算第三讲抽样•便利抽样因其简便易行而被广泛采用特点:根据调查者认为便利的访问条件来进行抽样。通常用在街头、商场等公共场所进行的拦截调查适用条件:调查对象占人群比例较高;问题较简单优点:简易、快速、易于控制缺点:样本选择偏差较大;难以避免访问员的主观选择应用:便利抽样在市场调研中应用十分普遍。在公共场所对调查对象甄别、抽样、访问都几乎不发生费用,被访人也易于合作。但要注意的是,这种抽样方式往往无法包括未出现在该调查场合的人群;另外,如果调查对象在人群中的比例过低,甄选出他们难度相当大。非概率抽样——便利抽样4、非概率抽样•判断抽样常用来研究有重要意义的典型人群特点:根据调查者的主观判断来选择认为有代表性的样本适用条件:对典型人群进行研究优点:易于快速地发现问题和寻求答案缺点:典型人群的答案可能重要但不具普遍性非概率抽样——判断抽样应用:判断抽样主要用以研究那些典型类型的被访人,在群组座谈会中经常用到此类的方法。比如保险行业研究潜在用户购买寿险的动机类型,就将被访人分为储蓄、增值、保障、救急若干动机类型,分别选各类动机突出者用群组座谈会的方式做研究,就是采用判断抽样的方法。当无法接触到所有研究对象的时候也往往用判断抽样的方法。比如研究劳动关系冲突中的工人,很难做严格的抽样,就可以用判断抽样的方法来用劳动调解、仲裁或诉讼案例中的工人替代之。4、非概率抽样•配额抽样是非随机抽样方法中代表性相对最好的非概率抽样——配额抽样特点:根据已知的总体人群的特征比例,配置出样本人群的比例结构,进行抽样。适用条件:对总体的主要特征有足够的信息,并且易于操作优点:在最大程度上克服了非概率抽样代表性不足的缺陷缺点:只能用少数几个指标进行配额应用:大部分的非概率抽样都会或多或少采用配额的方法,这样可以对样本构成有所控制,使之与总体接近。比如在街头拦截调查时,总是男性被访人的比例过高,就可以采用配额的方式,让回答者性别为1:1。有时为了对不同类型的群体进行比较,也需要用配额抽样以达到可供分析的样本量。4、非概率抽样•滚雪球的方法多用来调查难以接触的被访人非概率抽样——滚雪球抽样特点:利用被访人的人际关系来邀约更多的被访人适用条件:问题敏感、被访人难以接触的调查优点:被访人合作程度高缺点:样本可能会比较类似应用:由于人际关系的介入,滚雪球的抽样方式往往能在调查者和被访人之间建立较好的合作关系,特别适宜于隐密性话题的访问。如研究吸毒者群体,就可以先从一两个相熟的吸毒者着手,而后通过他们介绍,结识更多的访问对象。4、非概率抽样抽样与抽样调查抽样的概念、术语与程序概率抽样非概率抽样样本量计算第三讲抽样•并非样本量越大,代表性就越好;也并非大的总体就应该有大的样本样本量的大小和总体的规模有关系吗?常会有这样的误判:“全国的样本量应该比只做一个城市调查的样本量大得多”。其实并非如此。从样本代表性的角度看,当样本量达到一定规模时,代表性就几乎到了极点,再加大样本量就没有意义了——无论总体的规模多么大。当然,全国调查的样本量会比单一城市的样本量大一些,但这不是全国人口多的缘故,只是因为要考虑地域差异加大了代表性8385878991939597991020305010015020025030035040045050055060065070075080085090095010001050样本量%样本量大到一定程度,代表性的提高就微乎其微了5、样本量计算•样本量的设计要权衡研究目的、时间和预算三类因素研究目的:─代表性:只侧重总体代表性,1000出头的样本量就相当不错了;若侧重子总体的代表性,则样本量一定会增大─群体比较:要进行比较的群体越多,样本量就越大。一般而言每一个比较群体的样本量不低于30-50─发生率:发生率较低的群体,随机样本量要大,否则要采用分层或配额的方法─分析方法:进行多元统计分析,往往要更大的样本量调查时间:周期短则样本量不宜过大,否则完不成现场工作调查预算:样本量与预算呈正比5、样本量计算仅从技术的调度而言,样本量的计算取决于:1.调查对象的差异程度。差异越大,样本量应该越大。在统计学中,“差异”是用总体方差σ2来表示的。如果是比例型的差异,通常用P(1-P)代替。2.所期望的误差范围,或样本代表性的精度。样本推断总体的误差越小,样本量应该越大。“误差”在统计学中用Δ表示标准误。3.由样本推断总体的把握程度。把握程度越高,样本量应该越大。Z代表了置信度的大小。n=Δ2Z2σ2n=Δ2Z2p(1-p)计算:北京市社会阶层调查样本量。设抽样误差为3%,置信度为95%(Z=1.96),总体最大方差为50%*50%(即0.25),样本量N=1067,取近似值1100。5、样本量计算练习:1.为了研究收入对娱乐消费的影响,研究者以某城市16岁以上居民为总体进行抽样调查。根据2006年人口统计资料得知,该城市的月人均收入为1358元,标准差为800元。请设计在95%的置信度和允许误差不超过20元的条件下的样本量。1-1在上例中,若收入的标准差为500元,样本量又该是多少?1-2在1中,若把允许误差扩大到50元,样本量又该是多少?2.市政府打算对个税起征点上调至2000元的政策进行民意调查,关注点为有多大比例的支持度。请设计一个在置信度为95%,允许误差不超过3%的最保险的样本量。5、样本量计算•界定总体•抽样设计•产生抽样框•实施抽样和访问•数据分析•研究对象类型•界定研究总体•抽样方式•访问方式•样本量*•不同访问方式的抽样框•多级抽样的抽样技术•数据录入•数据加权合并*•数据统计在具体调研中,抽样通常遵循如下的流程:•推断总体•来源、时效、范围•界定调查总体抽样步骤示例界定总体:确定研究对象的类型研究对象的类型个人─居民─学生─用户组织/机构─家庭─学校─公司事物─票据─广告─档案•调查的对象并不限于人口,可以是机构,甚至是物品。•调查涉及的对象类型越多,调查就越复杂。抽样步骤示例具体研究中经常采用多阶段、多类型的综合抽样方法抽样阶段抽样单位抽样方法抽样指标/工具第1级城市分层抽样HDI指数分层第2级拥有电话的家庭户简单随机抽样RDD第3级被访人简单随机抽样最近生日法全国城市居民环境意识调查(电话访问)3阶段混合抽样抽样步骤示例具体研究中经常采用多阶段、多类型的综合抽样方法抽样阶段抽样单位抽样方法抽样指标/工具第1级县/市/区分层抽样HDI指数分层第2级乡/镇/街道整群抽样等概率抽样PPS第3级居/村委会整群抽样等概率抽样PPS第4级被访家庭等距抽样第5级被访人简单随机抽样KISH表全国社会综合状况调查CSS(入户访问)5阶段混合抽样抽样步骤示例CSS全国社会状况综合调查以2000年全国第5次人口普查的区市县统计资料为基础进行抽样框设计。采用分层多阶段抽样方式,逐级抽取区市县、乡镇街道、村/居委会作为调查点。以调查点内的家庭及人口资料汇聚成数以百万人计的抽样框。采用分层多阶段抽样的方式抽取调查点步骤1:采用城镇人口比例、居民年龄、教育程度、产业比例4大类指标7个变量,对东中西部的2797个区市县进行聚类分层,在划分好的37个层中,采用PPS方法抽取130个区市县步骤3:在抽中的每一区市县中,采用PPS方法抽取2个乡/镇/街道,共抽取了260个步骤4:在抽中的每一乡/镇/街道中,采用PPS方法抽取2个村/居委会,共抽取520个步骤5:收集抽中村/居委会中所有居民个人或家庭的名单资料,共覆盖160余万人,近50万户居民这些调查点内上百万居民构成了长期追踪调查的样本库县/市/区乡/镇/街道乡/镇/街道村/居委会村/居委会居民居民居民居民居民居民居民居民1305201620000260居民居民丰台海淀密云西青南开滦县沧县南皮桃城区新华区南和沙河武安成安万荣昆都伦区托克托玉泉区西丰开原中山区金州区瓦房店长岭南关区宽城区丰满区勃利阿城铁锋区明水闸北区灌南泗阳宝应兴化姜堰镇江溧阳江北区乐清苍南江山鹿城区嵊州东阳西湖区余杭东至和县无为五河固镇埇桥区淮上区涵江区永泰秀屿区晋江南安平和高安单县东昌府区郯城莒南岱岳区惠民临朐殷都区龙安区汤阴博爱延津开封新密上蔡南召邓州利川通城洪湖江岸区浠水孝昌房县南漳东宝区靖州耒阳开福区浏阳西洞庭鼎城区永定区揭东丰顺源城区开平东莞顺德萝岗区黄埔区番禺区龙州藤县横县威宁毕节织金瓮安陇川隆阳区云县晋宁鲁甸子长临潼区高陵未央区湟中固原伊宁九龙坡区綦江红原旺苍广元剑阁华蓥营山大竹安岳东兴区仁寿金牛区全国抽样框130个区市县分布图关于CSS样本的说明此调查系统的抽样设计对全国居民总体信息有可推断的代表性在地理区域上可进行东中西部地区的比较但不具有具体某一省、市、县区域人口的代表性,因此不能直接用于省、市、县级别的比较若要满足此类研究要求,必须补抽相应的调查点调查点的居民住户资料需要周期性的更新,一般3年左右更新一次实施抽样时,每一阶段会采用特定的抽样技术初级抽样单位(如市县)——多指标聚类的分层抽样为了保证初级抽样单位的代表性,通常不直接采用简单随机抽样的方法,而是利用各种统计指标,用聚类技术,将初级抽样单位划分为不同的类型(层)。然后在每一类型(层)中抽取相应的市县。抽样步骤示例用随机方法寻找一个起点抽样间距=100%/2=50%33.15%+50%=83.15%,抽取的第2个居委会实施抽样时,每一阶段会采用特定的抽样技术居委会人数百分比累积百分比等距抽样粉丝胡同339016.9816.98禄米仓胡同311216.1733.1533.15红星胡同188715.5448.69外交部街188113.3862.06干面胡同107210.5872.65南小街第二98010.0882.72南小街第三4889.4392.1683.15南小街第一4597.84100.00总计100.00制作抽样框将名单按用户数降序排列计算累计百分比按累计百分比等距抽样计算抽样间距示例:根据一个居委会抽样框用PPS的方法抽取2个居委会2级抽样单位(如乡镇街道或居/村委会)——PPS的整群抽样抽样步骤示例实施抽样时,每一阶段会采用特定的抽样技术3级抽样单位(如家庭户)——根据地址、家庭名册的等距抽样居/村委会的家庭抽样,首先要制作详细的家庭名册作为抽样框,如果无法得到有效的名册,则要进行实地的地址登记,或绘制街区图。然后对抽样框进行等距抽样。抽样步骤示例实施抽样时,每一阶段会采用特定的抽样技术4级抽样单位(如家庭成员)——利用随机选样表的简单随机抽样入户后的抽样随机选样技术大致有:最近生日法性别年龄平衡表KISH选样表抽样步骤示例在调查数据汇总阶段,往往还需要对抽样结果进行加权在下列的情况下,样本数据一定要进行事后的加权:在抽样设计时,人为地设定了不同群体入选概率不相等(如分层抽样)在调查中由于操作原因,导致选样概率的不同,因而产生了较大的样本偏差(如访问周期、入户时间、样本更换)对样本加权的权重,应为样本入选概率的倒数抽样步骤示例事后加权就是依据已有的总体统计数据来校正样本A样本分布B总体指标C=B/A权重值加权后分布和总体相比性别男52.450.90.9717151.50.6女47.649.11.0311248.5-0.6年龄16-205.411.12.0705510.5-0.621-3014.121.91.5500223.51.631-4025.126.31.0481128.42.141-5023.819.00.797219.20.251-6017.612.80.7265811.8-1.061-7014.08.90.63726.5-2.4抽样步骤示例练习随机数表抽取10个数字,从1到9988用多阶段整群抽样,调查中国的大学的一年级中文系新生的步骤
本文标题:抽样刁鹏飞-社会调查研究方法课10-27
链接地址:https://www.777doc.com/doc-418177 .html