您好,欢迎访问三七文档
抽样与抽样分布1抽样基本知识2抽样分布3样本统计量的抽样分布(一个总体参数推断时)4样本统计量的抽样分布(两个总体参数推断时)学习目标1.了解概率抽样方法2.区分总体分布、样本分布、抽样分布3.理解抽样分布与总体分布的关系4.掌握单总体参数推断时样本统计量的分布抽样基本知识总体与样本抽样方法抽样框抽样误差总体和参数总体(Population),是指所要研究的对象的全体,它是由所研究范围内具有某种共同性质的全部单位所组成的集合体。总体单位总数用N表示。参数(parameter)。用来反映总体数量特征的指标称。研究目的一经确定,总体也唯一地确定了,所以总体指标的数值是客观存在的、确定的,但又是未知的,需要用样本资料去估计。总体和参数(续)通常所要估计的总体指标有变量总体属性总体总体平均数(或记为µ)总体比例(成数)π总体标准差σ或方差σ²总体比例标准差σP或方差σP²总体标志总量()总体中具有某一属性的单位总数(NP)等。XNX样本和统计量样本(Sample),它是从总体中抽取的部分总体单位的集合体。样本容量。样本中所包含的个体的数量,一般用n表示。在实际工作中,人们通常把n≥30的样本称为大样本,而把n30的样本称为小样本。对于某一既定的总体,由于抽样的方式方法不同,样本容量也可大可小,因而,样本是不确定的、可变的。抽样的目的就是为要用样本的特征去估计总体特征,但样本只是总体的一部分,而且样本的抽取又具有随机性,因此,样本的内部构成与总体的内部构成总是具有一定的差异,样本不能完全代表总体,抽样估计总是存在一定的代表性误差。样本和统计量(续)统计量(statistic)。在抽样估计中,用来反映样本总体数量特征的指标称为样本指标,也称为样本统计量或估计量,是根据样本资料计算的、用以估计或推断相应总体指标的综合指标。常见的样本统计量有:样本统计量不含未知参数,它是随样本不同而不同的随机变量。变量总体属性总体样本平均数样本比例(样本成数)p样本标准差s或方差s²样本比例标准差sP或方差sP²x抽样方法概率抽样(probabilitysampling)概率抽样也叫随机抽样,是指按随机原则抽取样本。随机原则,就是排除主观意识的干扰,使总体每一个单位都有一定的概率被抽选为样本单位,每个单位能否入选是随机的。特点能有效地避免主观选样带来的倾向性误差(系统偏差),使样本资料能够用于估计和推断总体的数量特征,而且这种估计和推断得以建立在概率论和数理统计的科学理论之上可以计算和控制抽样误差,说明估计的可靠程度。作用:在不可能或不必要进行全面调查时,利用概率抽样来推断总体;利用概率抽样修正或补充全面调查的不足。概率抽样(probabilitysampling)(续)统计上所指的抽样一般都是指概率抽样概率抽样最基本的组织形式有:简单随机抽样、分层抽样、等距抽样和整群抽样。概率抽样简单随即抽样分层抽样等距抽样整群抽样简单随机抽样(simplerandomsampling)1.从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中2.抽取元素的具体方法有重复抽样和不重复抽样3.特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便4.局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率简单随机样本(simplerandomsample)1.由简单随机抽样形成的样本2.从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中3.参数估计和假设检验所依据的主要是简单随机样本简单随机抽样(用Excel对分类数据随机抽样)【例】某班级共有30名学生,他们的名单如右表。用Excel抽出一个由5个学生构成的随机样本简单随机抽样(用Excel对分类数据随机抽样)第1步:将30个学生的名单录入到Excel工作表中的一列第2步:给每个学生一个数字代码,分别为1,2…,30,并按顺序排列,将代码录入到Excel工作表中的一列,与学生名单相对应第3步:选择【工具】下拉菜单,并选择【数据分析】选项,然后在【数据分析】选项中选择【抽样】第4步:在【抽样】对话框中的【输入区域】中输入学生代码区域,在【抽样方法】中单击【随机】。在【样本数】中输入需要抽样的学生个数。在【输出区域】中选择抽样结果放置的区域。【确定】后即得到要抽取的样本用Excel对分类数据抽样简单随机抽样(用Excel对数值型数据随机抽样)第1步:将原始数据录入到Excel工作表中的一列第2步:选择【工具】下拉菜单,并选择【数据分析】选项,然后在【数据分析】选项中选择【抽样】第3步:在【抽样】对话框中的【输入区域】中输入原始数据区域,在【抽样方法】中单击【随机】。在【样本数】中输入需要抽样的数据个数。在【输出区域】中选择抽样结果放置的区域。【确定】后即得到要抽取的样本数据用Excel对数值型数据抽样分层抽样(stratifiedsampling)1.又称类型抽样或分类抽样。2.先对总体各单位按主要标志加以分组(层),然后再从各组(层)中按随机原则独立抽选一定单位构成样本。3.分层抽样通过分类(组),把总体中标志值比较接近的单位归为一组,减少各组内的差异程度,这样再从各组抽取样本单位就更具有代表性,因而抽样误差也就相对缩小。4.特别是在标志值相差悬殊时,由于划分了类型,一方面缩小了组内方差,另一方面也保证各组都能抽取一定的样本单位,所以,分层抽样较之纯随机抽样可以提高样本的代表性,能获得更为满意的效果分层抽样(stratifiedsampling)续优点:除了可以对总体进行估计外,还可以对各层的子总体进行估计可以按自然区域或行政区域进行分层,使抽样的组织和实施都比较方便分层抽样的样本分布在各个层内,从而使样本在总体中的分布比较均匀如果分层抽样做得好,便可以提高估计的精度系统抽样(systematicsampling)1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位2.优点:简便易行。可提高估计的精度3.缺点:对估计量方差的估计比较困难等距抽样(续)间隔相等样本数n()()()ikkkkiknknknkink1212211121整群抽样(clustersampling)1.将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查2.特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差多阶段抽样(multi-stagesampling)1.先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样2.具有整群抽样的优点,保证样本相对集中,节约调查费用3.需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开4.在大规模的抽样调查中,经常被采用的方法概率抽样(小结)抽样方法特点简单随机抽样按照等概率的原则,直接从含有N个元素的总体中抽取n个元素组成的样本(Nn)分层抽样把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。等距抽样把总体的单位进行排序,然后按照固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。整群抽样抽样的单位不是单个的个体,而是成群的个体。多阶段抽样把抽样过程分为几个阶段进行。适用于总体规模特别大,或者总体分布的范围特别广时非概率抽样也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。重点调查、典型调查、配额抽样(是按照一定标准或一定条件分配样本单位数量,然后由调查者在规定的数额内主观地抽取样本)、方便抽样(指调查者按其方便任意选取样本。如商场柜台售货员拿着厂家的调查表对顾客的调查)等就属于非随机抽样。优点:及时了解总体大致情况,总结经验教训,在进行大规模抽样调查之前的试点。缺点:非随机抽样容易产生倾向性误差,并且误差不能计算和控制,也就无法说明调查结果的可靠程度。概率抽样与非概率抽样抽样方式概率抽样非概率抽样简单随机抽样分层抽样等距抽样整群抽样多阶段抽样重点调查典型调查配额抽样方便抽样重复抽样与非重复抽样重复抽样,又称回置抽样,是指从总体的N个单位中,每次抽取一个单位后,再将其放回总体中参加下一次抽选,连续抽n次,即得到一个样本。特点:样本是由n次相互独立的连续试验构成的,每次试验是在完全相同的条件下进行,每个单位中选的机会在各次都完全相等。“重抽”(考虑顺序)可能的样本数目(从总体中可能抽取的样本个数,用M表示)为:Nn个。重复抽样与非重复抽样不重复抽样,也叫不回置抽样,是指抽中的单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。特点:样本由n次连续抽取的结果构成,实际上等于一次同时从总体中抽取n个样本单位。n次抽取结果不是独立的可能的样本数目(考虑顺序):N(N-1)(N-2)…(N-n+1)个。重复抽样与非重复抽样设有4名学生的月消费支出分别为:240,280,360,400元。我们分别用A、B、C、D替代。若从中抽取两个单位构成样本,则全部可能的样本数目为:重复:42=16个。它们是AAABACAD;BABBBCBDCACBCCCD;DADBDCDD不重复:4×3=12。它们是ABACAD;BABCBDCACBCD;DADBDC抽样框调查目的确定之后,抽样总体(目标总体)也就随之确定。但实际进行抽样的总体范围与目标总体有时是不一致的。所以,有了目标总体,还必须明确实际进行抽样的总体范围和抽样单位,这就需要编制一个抽样框。抽样框是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽样框的好坏通常会直接影响到抽样调查的随机性和调查效果。抽样框名单抽样框。列出全部总体单位的名录一览表。区域抽样框。按地理位置将总体范围划分为若干小区域,以小区域为抽样单位。时间表抽样框。将总体全部单位按时间顺序排列,把总体的时间过程分为若干个小的时间单位,以此时间单位为抽样单位。理想的抽样框:不重复、不遗漏。抽样误差统计调查误差,是指调查所得结果与总体真实数值之间的差异。登记性误差。是任何一种统计调查都可能产生。代表性误差系统性误差:是由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称偏差;随机误差:又称偶然性误差,是指遵循随机原则抽样,但由于样本各单位的结构不足以代表总体各单位的结构而引起的样本估计量与总体参数之间的误差。这就是抽样估计中所谓的抽样误差。三个误差概念实际抽样误差某一具体样本的样本估计值与总体参数真实值之间的离差。总体参数未知,每次抽样的实际抽样误差是无法计算的。样本是随机抽取,样本估计量是随样本不同而不同的随机变量,随机抽样误差也是随机变量,但样本估计量的所有可能取值总有一定的分布规律,抽样误差也就有一定的规律可循。抽样误差可以计算和控制,并不是指某次具体抽样的实际误差,而是从所有可能样本来考察的抽样平均误差和抽样极限误差。ˆ三个误差概念抽样平均误差(抽样标准误)是反映抽样误差一般水平的指标(因为抽样误差是一个随机变量,它的数值随着可能抽取的样本不同而或大或小,为了总的衡量样本代表性的高低,就需要计算抽样误差的一般水平)。通常用样本估计量的标准差来反映所有可能样本估计值与其中心值的平均离散程度。可以证明,对于既定的总体和样本容量,样本估计
本文标题:抽样与抽样分布
链接地址:https://www.777doc.com/doc-6991793 .html