您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > 本科“统计学”——第四章-统计数据的获取与质量
2-1第四章统计数据的获取与质量第一节统计数据的获取第二节统计数据的质量第三节调查方案设计第四节数据的预处理2-2学习目标1.了解统计数据的获取方法2.了解数据误差及对数据的质量要求3.掌握调查方案的设计4.了解统计调查方式2-3第一节统计数据的获取抽样普查数据获取观测研究实验研究2-4观测研究(概念要点)1.观测研究是观察一些个体,并度量我们感兴趣的变量,但并不试图影响回应。2.观测研究的目的是描述一个团体或一种状况。——在只观测不干扰的情形下搜集信息2-5实验研究(概念要点)1.实验时会刻意对某些个体加上某项处理,以期能够观察其反应。2.实验的目的是要研究某种处理是否确实会引起某种反应。——实验会对个体做某件事情,然后观察个体的反应2-6观察数据与实验数据观察数据:不对被调查对象数据产生的条件施加任何控制;通常(但不一定)是众多因素作用的结果。实验数据:对数据产生的条件实施控制;通常(但不一定)是单一因素作用的结果。观测是次于实验的第二选择(但可惜的是,有时候我们却只能选择观察)随机化比较实验可能是统计学中最重要的概念。要证明一个变量会影响另一个变量,实验是提供证据的金字招牌。双盲试验(Double-blindexperiment)不论受试对象,还是会和受试对象有互动的人,都不知道哪位受试对象接受了何种处理。美国法律,新的处方或医疗装置必须经过随机化双盲试验来证明其安全性和有效性。——胃冷冻失败了2-7试验伦理1.实施研究的机构必须设立试验审查委员会,负责事先审查所有的研究对象,以保护受试对象免于受到可能的伤害;2.在搜集资料前,研究中的每一个受试对象都必须知情且同意参加试验;3.任何人的资料必须保密,只有整体的统计结果可以公开。2-8实验设计的逻辑用随机化方法将受试对象分组,且保证各组在实施处理之前,在各个方面都类似;(美国是否值得执行儿童学前教育计划?——历时20年)用“比较”的设计以确保:除实验上的处理外,其他所有因素都会同样作用在所有的组上;因此,反应变量的差异必是处理的效果所致。坏实验的根源:1.潜在变量:对研究中其它变量间的关系有重要影响,却未被列为解释变量的变量;(网上学习与教室学习效果一样好?—原有知识水平)2.交叉变量:两个变量对反应变量的影响混在一起,无法区分。交叉变量可以是解释变量,也可以是潜在变量;3.真实实验中还可能遭遇到受试者拒绝参加、不合作、中途退出等问题2-9令人信服的实验其关键在于:随机化:遵循以整个总体为背景进行随机化抽样的原则控制:有安慰剂的控制组进行对比实验,克服安慰剂效应受试对象足够多满足大数定理的要求2-10可惜的是,有时候我们却只能选择观察例如:研究野生动物的习性研究国民经济的发展研究企业的经营状况研究股票的发展趋势……2-11抽样调查(概念要点)1.抽样调查是很重要的一种观测研究,具有经济性、时效性强、适应面广、准确性高等特点。2.抽样调查根据随机原则,从总体中抽取部分单位做为样本加以调查研究,以样本指标去推算总体指标的一种专门组织的非全面调查。3.抽样调查由于遵循随机原则,样本单位的选取不受调查者主观意识的影响。4.抽样调查既是搜集统计资料的方法,也是对调查对象进行科学估计和推断的方法。——抽样调查就是从某个特定总体中抽取样本,然后从样本中推断整个总体的信息总体随机样本2-12普查(概念要点)1.普查是企图把整个总体纳入样本的抽样调查。2.属于全面调查,涉及面广,工作量大;且调查对象随着时间的推移不断变化,同时在空间分布上也会有较大的变动;故一般需要规定统一的标准调查时间,数据的规范化程度较高。通常是一次性或周期性的,目的在于取得详细资料。3.从时间、金钱及可行度上,抽样更为划算。即使有政府的强大资源做后盾,普查也不是一定做得到;而且有些检查是破坏性的,普查并不适用。另外,比起全面普查,较小的样本反而反而可能会得到较精确的结果,因为人员心烦的时候,数据往往也会混乱。——普查试图取得总体中每个个体的信息总体2-13比较:重点调查和典型调查(概念要点)1.重点调查从调查对象的全部单位中选择少数重点单位进行调查(如:钢铁行业的宝钢、鞍钢、武钢等)重点单位的数量不多,但它们的标志总量在总体标志总量中占绝大比重,因而能反应总体的基本情况及基本发展趋势。重点调查比普查节省人力、财力、时间。当调查任务只要求掌握总体基本情况,而总体中确实存在重点单位时,采用重点调查比较适宜。但由于重点单位与普查中的一般单位差别较大,不能用重点调查的结果来推算总体的指标。2-14比较:重点调查和典型调查(概念要点)2.典型调查根据统计调查的目的和要求,在对被研究现象进行全面分析的基础上,有意识地选择若干具有典型意义的或有代表性的单位进行的一种专门组织的非全面调查。具有灵活机动、通过少量典型即可取得深入、详实的统计资料的特点。但典型单位选择往往受到人们主观认识的影响。为防止片面性,典型调查必须与其他调查方式相结合。典型调查可以补充全面调查的不足,也可用于验证全面调查数据的真实性,做到定性与定量分析相结合,在特定条件下,典型调查也可用于统计数据质量的检查或对总体数量的推算。2-15第二节统计数据的质量抽样,结果就一定准确吗?一.统计数据的误差来源二.统计数据的质量要求2-16盖洛普的崛起1.《文摘》杂志1890-1938年间在美国相当普及,从1916年开始,每次选举前都预测出了总统选举的获胜者。1936年,该杂志邮寄了1000万份调查表,并自豪地宣布,照以往的判断标准,预测结果的误差将在1%之内。最后,该杂志回收了240万份问卷,分析结果为兰登将获得57%的选票,而罗斯福只能得到43%的选票。2.刚刚成立不久的盖洛普研究所仅仅从美国选民中随机抽取了2000多选民,预测结果为罗斯福会得到54%的选票并获胜。3.真实的结果是,罗斯福获得了压倒多数的62%的选票。盖洛普以悬殊的样本容量取得了正确的预测结果,从此名声大震。4.从1936年的大选开始,盖洛普总是用1000-1500人的样本,快速、准确地对每届总统选举进行了预测,误差在2%以内;而当时的美国成年人已接近2亿。2-17事件背景1.《文摘》取样是基于两个来源:电话簿和汽车注册档案。在上世纪30年代,在美国拥有电话和汽车的家庭都属于中产阶级,多是共和党人中的保守阶层。2.1936年,美国由于经济政策的分歧在政治上发生分裂——共和党中的保守阶层对过去四年中民主党罗斯福的执政结果非常不满意,特别希望改变现状。从而,这类选民比其他选民更愿意回复《文摘》的问卷调查。3.《文摘》的民意测验依靠的是自愿回答。——问题:你认为盖洛普采用的何种调查方法?2-18盖洛普的随机抽样1.盖洛普认为,随机性是民意调查的基础,只有真正随机地选择被提问的人,才能确保每一个人都有机会被提问,也就确保了提问结果能真正反映公众的民意。2.盖洛普的研究显示,在任何一个特殊场所,如商店、体育馆、火车站等地找到的人都不能完全代表所有的人,只有去人们家里向人们提问才能确保被提问的人代表了所有的人。2-19盖洛普的随机抽样1.从30年代到80年代中期,盖洛普民意调查研究所的调查员主要是在美国各地按照随机抽样的名单去每个人家里面对面的提问。在这50年的时间里,盖洛普民意调查研究所对12次美国总统选举的调查显示,盖洛普民意调查的准确率非常高。2.80年代中期以后,由于95%的美国家庭都拥有了电话,使得利用电话进行调查成为可能,同时也使调查费用大大降低,调查结果也能得以迅速发表。2-20盖洛普的随机抽样1.可是决定给哪些人打电话进行下面提问还有一个问题,那就是在确定1000个电话号码时,要确保所有家庭的电话都有被随机选取的可能。2.采用现成的电话号码簿并从中选择样本号码要省事得多,但是,这样可能会引起抽样偏差,因为大约有30%的美国居民电话并不注册公开。使公司先有一份美国大陆各州所有家庭电话号码簿是一个复杂的过程,开始应当是具有全美所有电话交换总机的清单以及这些电话交换总机服务的居民家庭数量。然后,计算机采用一种名为随机号码拨号的程序,从这些电话号码中随机产生样本电话号码。3.另外在提问时,确保提问方式的中立性也是很重要的。因为这样才能不对被提问者如何回答产生误导。2-21抽样——好样本与坏样本1.《文摘》的坏样本——有偏抽样①方便样本:调查结果受到调查者的控制②自发性回应样本:调查结果受到受访者的左右2.盖洛普的好样本——简单随机抽样(确保抽样结果的无偏性)2-22一、统计数据的误差来源2-23数据的误差抽样误差抽样框误差回应误差处理误差非抽样误差数据的误差2-24非抽样误差(non-samplingerror)1.非抽样误差是由于调查过程中各个环节工作失误造成的。主要有:抽样框误差:如果总体的某些部分未被纳入抽样框中,则抽样过程就会出现涵盖不全问题——可以避免抽样框:将所有总体成员列成清单,以便于我们从中抽取样本回应误差:受访人员无回应、或给出错误答案时造成的误差。处理误差:手工输入、计算错误等,在计算机帮助下,该类错误已大大减少;2.存在于所有的调查之中,包括全面调查、抽样调查——可以避免2-25抽样误差(samplingerror)1.抽样误差:是利用样本推断总体时产生的误差。由于样本只是总体的一部分,抽样误差总会存在。——不可避免,但可以衡量(置信描述:误差界限与置信水平)2-26二、统计数据的质量要求2-27误差的控制1.非抽样误差可以避免,方法主要有:调查员的挑选调查员的培训督导员的调查专业水平调查过程控制调查结果进行检验、评估现场调查人员进行奖惩的制度2.抽样误差不可避免,可以计算(置信描述)和控制(样本量的选取)2-28抽样两原则1.随机抽样——利用随机抽样可以得到样本对总体的无偏估计2.样本量足够大——在坚持随机抽样的前提下,增大样本量可以使样本统计结果的变异性无限小3.随机抽样误差:是样本统计量与总体参数之间的差距,源于随机性误差界限:指出样本统计量离总体参数有多远,此误差界限只体现随机抽样误差置信水平:说明所有可能样本中有多少百分比满足这样的误差界限,95%是常用的置信水平,常被视为默认值——盖洛普的表述:调查发现,57%的美国成年人在过去12个月内曾购买彩卷。我们有95%的信心认为,所有美国成年人真正购买比例,会在这个样本结果的正负3个百分点之内。(此处仅指随机抽样导致的变异性误差)2-29现实世界中常用的抽样方法2-30常见的抽样方法简单随机抽样分层抽样整群抽样系统抽样多阶段抽样概率抽样方便抽样判断抽样自愿样本滚雪球抽样配额抽样非概率抽样抽样方式2-31概率抽样(probabilitysampling)1.根据一个已知的概率来抽取样本单位,也称随机抽样。2.特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率2-32简单随机抽样(simplerandomsampling)1.从总体N个单位中随机地抽取n个单位作为样本,使得每一个总体单位都有相同的机会(概率)被抽中;2.抽取元素的具体方法有重复抽样和不重复抽样;3.特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便4.局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率2-33分层抽样(stratifiedsampling)1.将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本;2.优点保证样本的结构与总体的结构比较相近,从而提高估计的精度;组织实施调查方便;既可以对总体参数进行估计,也可以对各层的目标量进行估计。3.缺点:客观上破坏了整体抽样的概率均等原则,故在利用样本估计总体时,必须
本文标题:本科“统计学”——第四章-统计数据的获取与质量
链接地址:https://www.777doc.com/doc-6371740 .html