您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 现代社会调查方法 4
现代社会调查方法第四章抽样主要内容概率与抽样分布概率抽样非概率抽样样本规模与抽样误差回顾何谓抽样?所谓抽样,指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(总体的一个子集)的过程,或者说,抽样是从总体中按一定方式选择或抽取样本的过程。抽样的作用由部分认识整体。节省时间、人力、经费等。抽样术语总体:所有元素的集合(N)样本:从总体中按一定方式抽取出的一部分元素的集合(n)抽样单位:一次直接的抽样所使用的基本单位(个体、群体、家庭、社区)抽样框:抽样范围,总体中所有元素的名单参数值:总体值统计值:样本值(以样本统计值来推论总体参数值)置信水平(置信度):总体参数值罗在样本统计值某一区间中的把握性程度(概率),反映抽样的可靠性程度。95%置信区间:抽样的精确性程度(区间越小,误差越小,反之亦然)两个例子1984年的美国总统大选民意调查机构准确预测1亿选民,调查对象仅2000人!1936年美国总统大选FranklinRooselveltAlfredLandonPK《文学文摘》《文学文摘》杂志曾准确地预测了1920、1924、1928、1932年的美国总统大选。1936年,《文摘》进行了一次最具雄心的民意测验活动:《文摘》将选票寄给了从电话簿与车牌号登记名单中挑选出来的1000万人。收到了200万人以上的回应。结果显示,有57%的人支持共和党候选人兰登,而当时在任的总统罗斯福的支持率为43%。两个星期后,投票结果显示:罗斯福以历史上最大的优势——61%的得票率,获得第二届任期。相对于罗斯福的523张选票,兰登仅得8张。惨败!声誉扫地,不久关门。为何预测失败?问题的症结:回收率只有22%抽样框:电话用户和汽车拥有者。这种设计只选择了不成比例的富人样本,尤其是当时美国还处在最严重的经济萧条后期。这个样本排除了穷人,而几乎所有穷人都支持罗斯福的新经济政策。社会科学研究的三个基本原理变异性原理同质性与异质性单个案不具有代表性社会分组原理社会情境原理(谢宇,2006:15)《社会学方法与定量研究》抽样误差抽样误差样本代表性与概率抽样概率抽样的基本原则:如果总体中的每一个个体被抽取为样本的概率相同,那么从这个总体中抽取的样本就具有对该总体的代表性。代表性,即所选取的样本能再现总体的结构。具有这一性质的样本通常被称为等概率抽样方法(EqualProbabilityofSelectionMethod,EPSEM)。概率抽样的两项优点:概率样本更具代表性,可避免各种偏见和减少误差概率理论使我们能够估计样本的精确度和代表性概率抽样之所以能够保证样本对总体的代表性,其原理就在于它能够很好地按总体内在结构中所蕴涵的各种随机事件的概率来构成样本,使样本称为总体的缩影。一、抽样原理:概率与抽样分布随机抽样:同等、独立随机事件与概率确定性现象:必然发生的。必然事件:在一定条件下必然发生的。如:在一个大气压下,水在100摄氏度时必然沸腾。随机现象:在一定条件下可能出现这样的结果,也可能出现那样的结果,但究竟出现哪种结果事先是不能肯定的。随机事件:在一定条件下可能发生也可能不发生的事件。如抛硬币、生小孩概率:事件发生频率所接近的固定数值,它是相应事件发生的可能性大小的一个客观、定量的度量。观看视频:《该死的概率》、《亿万分之一的概率》少概率事件据《每日邮报》18日报道,生双胞胎是一件大喜事。但当赖安(Ryan)和利奥(Leo)两兄弟来到这个世界时,他们给父母带来了一份意外的惊喜——兄弟俩肤色不同。双胞胎一个白皮肤一个黑皮肤非常少见,据医学专家介绍,生下这种双胞胎的概率仅为百万分之一,也就是说,一百万对双胞胎中才有一对双胞胎。抽样分布拥有0-9美元的十人总体十个人的抽样分布以一个样本的平均值来推论总体以两个样本的平均值来推论总体以三、四个样本的平均值来推论总体以五、六个样本的平均值来推论总体极限定理:大数定理与中心极限定理极限定理:观察次数n趋向无限时的极限行为。采用极限的方法所得出的一系列定理,统称极限定理。可分为两类:大数定理(大数法则或平均法则):研究在什么条件下,随机事件可以转化为不可能事件或必然事件,即有关阐明大量随机现象平均结果的稳定性的一系列定理。它的意义:在随机事件的大量重复出现中,往往呈现几乎必然的规律。中央极限定理:研究在什么条件下,随机变量之和的分布可以近似正态分布。中心极限定理表明,如果一个现实的量是由大量独立偶然因素的影响迭加而得,且其中每一个偶然因素的影响又是均匀地微小的话,则可以断定这个量将近似地服从正态分布。(卢淑华,1998:177)《社会统计学》中心极限定理与正态分布在自然、社会、经济领域里大量存在服从正态分布的随机变量,如身高、体重、智商、婚龄等。根据中心极限定理,均值的抽样分布具有如下特征:如果样本相当大(不少于30,最好是大于等于100),则抽样分布接近正态分布。其特点是单峰和对称,众值、中位值与均值都相同。抽样分布之均值就是总体之均值(μ)。抽样分布的标准差,称为标准误差(SE)。由于均值的抽样分布是正态分布,而其面积就是均值的次数,故任何两值之间的样本均值次数所占的比例是可以知道的。正态分布图与统计推论抽样技术非概率抽样概率抽样方便抽样判断抽样配额抽样滚雪球抽样简单随机抽样系统抽样分层抽样整群抽样多级抽样其他抽样技术按比例不按比例图抽样分类抽样分类二、概率抽样:1、简单随机抽样简单随机抽样,又称纯随机抽样:将总体内所有个案都编上号码,然后根据等概率的原则,运用随机数表、随机数码或抽签(抓阄)的方式从总体中直接获取样本。是随机抽样方法中最简单、最基本的方法例子(下页)优点:在抽样过程中完全排除了主观因素的干扰,而且简单、易行,只要有总体各单位名单就可以进行。缺点:只适用于总体单位数量不多的调查对象,如果总体单位数量很大,编制抽样框的工作就十分复杂;样本代表性较差,抽样误差大;抽取的样本可能比较分散或者过分集中。2、系统抽样又称等距抽样或间隔抽样。它是把总体的元素进行编号排序后,再计算出某种间隔,然后按这一固定的间隔抽取元素来组成样本的办法。优点:样本在总体中的分布比较均匀,具有较高的代表性,抽样误差小于简单随机抽样,简便易行。缺点:调查总体单位不能太多,而且要有完整的登记册;注意避免抽样间隔与调查对象的周期性节奏相重合。例:有关二战士兵的经典研究3、分层抽样又称类型抽样,是先将总体中的所有元素按某种特征或标志(如性别、年龄、职业或地域等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系统抽样的办法抽取一个子样本,最后将这些子样本合起来构成总体的样本。优点:降低抽样误差、提高抽样的精度;便于了解总体内不同层次的情况;便于对总体中不同的层次或类别进行单独或比较研究。缺点:必须对总体各个单位的情况有较多的了解,否则就无法科学分类,而这一点在实际调查之前又往往难以做到。Continued…实际运用分层抽样时,需要注意的两个方面:一是分层的标准问题以主要变量为准组内差异最小、组间差异最大常用的变量(性别、年龄、文化程度、职业等)二、分层的比例问题按比例:不按比例:例子(见下页)例子4、整群抽样是从总体中随机抽取一些小的群体,然后由所抽出的若干个小群体内的所有元素构成调查样本的方法。优点:简化抽样过程,降低调查费用,扩大抽样的应用范围缺点:样本分布面不广,样本对总体的代表性相对较差5、多段抽样又称多级抽样或分段抽样,它是按抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。具体做法:先从总体中随机抽取若干大群(组),然后再从几个大群(组)内抽取几个小群(组),这样一层层抽下来,直到抽到最基本的抽样元素为止。优点:节省人力物力和时间;特别适合调查总体范围大、单位多、情况复杂的调查对象。对总体的了解要求程度低。缺点:抽样误差大。可能出现不等概率状况例子6、PPS抽样PPS(samplingwithprobabilityproportionaltosize),叫做“概率与元素的规模大小成比例的抽样”。为解决多段抽样中的不等概率问题而设计。做法:在第一阶段,每个群按照其规模被给予大小不等的抽取概率(群越大,被抽中的概率越大)。但到了第二阶段,从每个抽中的群中都抽取同样多的元素。正是通过这样两个阶段上的不等概率抽样,使得总体中的每一个元素最终都具有同样的被抽中的概率。优点:最终抽出的样本对总体的代表性大。缺点:需要知道每一个群的规模。如果无法知道其规模,就不知道其比例。例子(见下页)从100家不同规模企业(20万名职工)中抽取1000名职工1、抽20家2、从这20家中分别抽取50名职工7、户内抽样Kish选择法例1:“XX大学学生学习、生活状况调查”抽样设计1、研究总体:XX大学全日制(南校区、北校区、珠海三校区)在校本科生、研究生。(附:XX大学是一所跨三个校区、涉及文理医的综合性大学。在校本科生17101人,硕士研究生数5432人,博士研究生1968人,总人数24496;拥有19个学院,54个系。)2、抽样方案:分层抽样与整群抽样相结合(1)分层标准:A专业划分——文科类、理工类、医学类;B年级划分——本科四个年级、硕士研究生、博士研究生(2)以上述专业和年级为维度进行整群抽样,分专业每个年级各抽取两个班,总共抽取36个班,对抽样班所有学生进行调查。(详见抽样流程图)(3)对有课程安排的班级,我们可到教务处查询抽中班级上课地点和时间,并由教务处开出介绍信预先和任课老师联系,调查员提前15分钟到课堂统一发放和回收问卷。对没有课程安排的班级,可去宿管中心查找对应宿舍,集中时间调查。XX大学文科博士研究生2个班本科四年级2个班本科一年级2个班本科三年级2个班本科二年级2个班硕士研究生2个班理工科博士研究生2个班本科四年级2个班本科一年级2个班本科三年级2个班本科二年级2个班硕士研究生2个班医科博士研究生2个班本科四年级2个班本科一年级2个班本科三年级2个班本科二年级2个班硕士研究生2个班图1-12抽样流程图例2:“XX社会变迁基本调查”抽样设计1、研究总体:18周岁以上、在XX省有正式户口、居住满1年以上的城市居民,总数约2000万。2、抽样方案:本项研究主要采取多段随机抽样方法。以人口规模、社会经济发展和地理分布为向度,选择市1、市2、市3、市4、市5、市6、市7等7个城市。抽样的步骤是市—区—街—居委,样本总量为2000个。具体抽样步骤如下:(1)请求XX省政府发展研究中心的协作和支持,以公函形式将调查组介绍到各市政府。(2)各市政府确定一人专门负责,协助调查组依次进行区、街道办事处和居民委员会的随机抽样。(3)在各居委会,根据所需样本数,以户口簿或户主花名册作为抽样框,采取分层多段随机抽样抽取居民户。如果被抽中的住户拒绝访问,则按照先左后右、先下后上的原则选取邻居进行访问。(4)进入各居民户后,采用基什网格(KishGrid)确定每户的具体访问对象。在严格控制的前提之下派访问员进行入户访问。课堂训练根据以下情况设计一种抽样方案:某市有300所小学,共240000名学生。这些小学分布在全市5个行政区中。其中重点小学有30所,一般小学有240所,较差的小学有30所。现在要从全市小学生中抽取1200名学生进行调查,以了解全市小学生的学习情况。请设计一种抽样方案。三、样本规模与抽样误差1、样本规模抽样多少份样本才算够呢?在总体的标准差、百分比难以得到的情况下,已有的计算公式无法直接运用。比较保险的计算公式:其中t为置信水平所对应的临界值,e为容许的抽样误差。2、影响样本规模确定的因素总体的规模估计的把握性与精确性要求总体的异质性程度调查者所拥有的经费、人力和时间通常情况下:3、样本规模与抽样误差抽样误差:样本的统计值与总体的参数值之间的误差。取决
本文标题:现代社会调查方法 4
链接地址:https://www.777doc.com/doc-5393842 .html