您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 统计学 抽样与抽样分布
1第四章抽样与抽样分布(新)4.1抽样的基础知识4.2抽样分布4.3中心极限定理的应用24.1抽样的基础知识一、几个概念二、抽样误差三、常用的抽样方法3一、几个概念(一)全及总体与总体指标全及总体。简称总体(Population),是指所要研究的对象的全体,它是由所研究范围内具有某种共同性质的全部单位所组成的集合体。总体单位总数用N表示。(举例)总体指标(参数)。在抽样估计中,用来反映总体数量特征的指标称为总体指标,也叫总体参数。研究目的一经确定,总体也唯一地确定了,所以总体指标的数值是客观存在的、确定的,但又是未知的,需要用样本资料去估计。4通常所要估计的总体指标有:变量总体总体平均数(或记为µ)总体标准差σ或方差σ²总体标志总量(N)属性总体总体比率(成数)P(或)总体比率标准差σP或方差σP²总体中具有某一属性的单位总数(NP)等。XX5一、几个概念(二)样本总体与样本指标样本总体。简称样本(Sample),它是按照随机原则,从总体中抽取的部分总体单位的集合体。样本容量:样本中所包含的个体的数量,一般用n表示。在实际工作中,人们通常把n≥30的样本称为大样本,而把n30的样本称为小样本。对于某一既定的总体,由于抽样的方式方法不同,样本容量也可大可小,因而,样本是不确定的、而是可变的。6一、几个概念(二)样本总体与样本指标样本指标(统计量)。在抽样估计中,用来反映样本总体数量特征的指标称为样本指标,也称为样本统计量或估计量,是根据样本资料计算的、用以估计或推断相应总体指标的综合指标。7常见的样本统计量有:变量总体:样本平均数样本标准差S或样本方差S²样本统计量不含未知参数,它是随样本不同而不同的随机变量。属性总体:样本比率(也称样本成数)p样本比率标准差σp或方差σp²x8二、抽样误差(一)抽样误差的概念抽样误差是统计调查误差的一种形式。统计调查误差,是指调查所得结果与总体真实数值之间的差异。在抽样调查中,误差的来源有两大类:登记性误差。是任何一种统计调查都可能产生.代表性误差系统性误差随机误差9二、抽样误差系统性误差,是由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称偏差;随机误差:又称偶然性误差,是指遵循随机原则抽样,但由于样本各单位的结构不足以代表总体各单位的结构而引起的样本估计量与总体参数之间的误差。这就是抽样估计中所谓的抽样误差。10二、抽样误差实际应用中,有三个密切联系而又相互区别的抽样误差的概念实际抽样误差抽样平均误差抽样极限误差11二、抽样误差(二)抽样平均误差(抽样标准误)抽样平均误差是反映抽样误差一般水平的指标(因为抽样误差是一个随机变量,它的数值随着可能抽取的样本不同而或大或小,为了总的衡量样本代表性的高低,就需要计算抽样误差的一般水平)。通常用样本估计量的标准差来反映所有可能样本估计值与其中心值的平均离散程度。12二、抽样误差(二)抽样平均误差22[()]()()xExxxMM抽样平均误差可衡量样本对总体的代表性大小。即:抽样平均误越小,则样本估计量的分布就越集中在总体参数的附近,平均来说,样本估计值与总体参数之间的抽样误差越小,样本对总体的代表性越大。13抽样平均误的计算公式在总体方差已知,总体单位总数为N,样本容量为n,简单随机抽样条件下,抽样平均误的计算公式为:重复抽样不重复抽样估计均值估计成数22()xnn2()1nxnN(1)()pppn(1)()1ppnpnN14二、抽样误差(三)抽样极限误差抽样极限误差是指一定概率下抽样误差的可能范围,也称为允许误差。用Δ表示,由定义知其表达式:在一定概率下,上式表示,在一定概率下可认为样本估计量与相应的总体参数的误差的绝对值不超过。ˆˆˆ15抽样极限误差用、分别表示平均数和比率(成数)的抽样极限误差,则在一定概率下有:估计均值的置信区间:估计成数(比例)的置信区间:xpxXxpPpxxxXxpppPp16对抽样极限误差的解释:抽样极限误差是抽样误差的可能范围,而不是完全肯定的范围。所以,这一可能范围的大小是与其估计的可靠程度的大小(即概率)紧密联系的。在抽样估计中,这个概率叫置信度,习惯上也称为可靠程度、把握程度或概率保证程度等,用1-α表示。显然在其他条件不变的情况下,抽样极限误差越大,相应的置信度也就越大。17抽样误差率:与抽样极限误差相关的两个概念是:抽样误差率和抽样估计精度抽样误差率=(抽样极限误差/估计量)×100%抽样估计精度=100%-抽样误差率18估计精度(准确性)与可靠程度的关系:估计精度与估计的可靠程度是矛盾的。也就是说,如果精度很高,则会由于估计区间太窄而使错误估计的可能性大增,从而大大降低估计的可靠程度,使估计结果没有多大的作用;如果置信度很高,则意味着允许误差范围较大,而使估计精度太低,这时尽管估计的可靠程度接近或等于100%,但抽样估计本身也会失去意义。实际中,只能依据具体情况,先满足一方面,然后确定另一方面。19三、抽样方法在实际应用中,抽样方法主要有两种概率抽样非概率抽样1、概率抽样也叫随机抽样,是指按随机原则抽取样本。所谓随机原则,就是排除主观意识的干扰,使总体的每一个单位都有一定的概率被抽选为样本单位,每个单位能否入选是随机的。概率抽样最基本的组织形式有:简单随机抽样、分层抽样、等距抽样和整群抽样。20三、抽样方法1、概率抽样特点:概率抽样能有效地避免主观选样带来的倾向性误差(系统偏差),使得抽样估计和推断得以建立在概率论和数理统计的科学理论之上。从而使样本资料一方面能够用于估计和推断总体的数量特征;另一方面可以计算和控制抽样误差,说明估计的可靠程度。2、非概率抽样也叫非随机抽样,是指从研究目的出发,根据调查者的经验或判断,从总体中有意识地抽取若干单位构成样本。21三、抽样方法由于一般的抽样推断都是建立在概率抽样的基础上,因此,主要介绍四种常见的抽样组织形式。简单随机抽样类型抽样等距抽样整群抽样22(一)简单随机抽样简单随机抽样又称纯随机抽样,它是对总体单位不进行任何划分或排队,完全随机地直接从总体中抽取样本单位,使每个总体单位都有完全均等的机会被抽中。纯随机抽样常采用的抽选方法有抽签法、利用随机数表取数法和电子计算机取数法。它只需对总体单位进行编号,而不需要事先掌握更多的总体信息。23(一)简单随机抽样纯随机抽样有两种抽取单位的具体方法,即:重复抽样,又称回置抽样,是指从总体的N个单位中,每次抽取一个单位后,再将其放回总体中参加下一次抽选,这样连续抽n次,即得到一个样本。其特点是:样本是由n次相互独立的连续试验构成的,每次试验是在完全相同的条件下进行,每个单位中选的机会在各次都完全相等。“重抽”(考虑顺序)可能的样本数目(从总体中可能抽取的样本个数,用M表示)为:Nn个。不重复抽样,也叫不回置抽样,是指抽中的单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。其特点是:样本由n次连续抽取的结果构成,实际上等于一次同时从总体中抽取n个样本单位。可能的样本数目(考虑顺序):N(N-1)(N-2)…(N-n+1)个。24(一)简单随机抽样优缺点:纯随机抽样比较适用于总体单位数不多,总体单位标志值的差异不很大,或对抽样推断的要求不十分高的情况下使用。但由于纯随机抽样的估计效率比较低,进行大规模的抽样调查时,其组织工作也不宜开展,故大规模抽调常采用其他三种组织形式。25(二)分层抽样分层抽样又称类型抽样或分类抽样。这种抽样方式是先对总体各单位按主要标志加以分组,然后再从各组中按随机原则抽选一定单位构成样本。如城市职工收入调查,可按行业将全部职工分类,再从各行业中分别抽取若干职工进行调查。类型抽样总的抽样误差与组间差异无关,仅取决于各组内的抽样误差,而组内的抽样误差又取决于各组内的方差水平。所以,类型抽样应该尽可能扩大组间方差,缩小组内方差,这样就可以减少抽样误差,以提高抽样效果。26(二)分层抽样分层抽样的优点:1、不仅能对总体进行估计,而且也可对各层子总体进行估计。2、能使抽样的组织和实施都比较方便。因为分层时可按自然区域或行政区域进行。3、能使样本在总体中的分布比较均匀。因为类型抽样是对所有的层进行全面抽样。4、估计精度高。因为分层抽样的误差只与组内方差有关,因此,若分类效果好,则可减少抽样误差。27(三)等距抽样等距抽样也称机械抽样。它是先将总体所有单位按某一标志顺序排列,然后按相等的距离抽取样本单位。排列的标志可以是无关标志也可以是有关标志。(1)无关标志,指和单位标志值的大小无关或不起主要的影响作用。(2)有关标志,指作为排队顺序的标志和单位标志值的大小有密切的关系。其中,按有关标志顺序排队,并将样本单位加以n等份后,对每一部分抽取一个样本单位有两种方法半距中点取样对称等距取样应该指出的是,等距取样间隔的确定,要避免与想象中的周期性节奏重合,引起系统误差的影响。28(三)等距抽样等距抽样的优点:1、简便易行。相对于简单随机抽样而言。2、误差相对而言,比简单随机抽样的要小。因为等距抽样的样本在总体中的分布一般比较均匀(针对有关标志排队而言)。29(四)整群抽样整群抽样又称群体抽样。它是将总体各单位划分成许多群,然后从中随机抽取部分群,并对中选群的所有单位进行全面调查。整群抽样实质上是以“群”代替单位之后的纯随机抽样。因此,整群抽样的抽样平均误差可以根据群间方差来推算。30(四)整群抽样优点:1、不需要有总体单位的具体名称,而群的名单比较容易得到。2、整群抽样调查单位比较集中,故调查较方便,节省费用。3、若群内各单位存在较大差异时,抽样推断效果较好。314.2抽样分布一、抽样分布的概念二、抽样分布的形式三、抽样分布的特征四、样本比率的抽样分布五、样本方差的抽样分布六、两个样本统计量的抽样分布xx32一、抽样分布的概念样本指标是一种随机变量,它有若干可能取值,每个可能取值都有一定的可能性(即概率),从而形成它的概率分布,即统计上所谓的抽样分布。简言之,抽样分布就是指样本统计量的概率分布。样本统计量是由n个随机变量构成的函数,故抽样分布属于随机变量函数的分布。33一、抽样分布的概念举例:四名学生的月生活费支出(480,560,720,800元)。现按不重复取样的方法,随机抽取两位构成一个样本,则全部可能的样本及其各样本的均值如下表所示:34序样本变量样本平均数平均数离差离差平方x-E()[-E()]²1480,560520-120144002480,720600-4016003480,800640004560,480520-120144005560,720640006560,8006804016007720,480600-4016008720,560640009720,8007601201440010800,4806400011800,56068040160012800,72076012014400合计——7680064000xxxxx35一、抽样分布的概念(续)样本平均数的概率分布520600640680760f22422f/∑f2/122/124/122/122/12x36一、抽样分布的概念(续)例中总体分布和样本均值分布的比较:P()xx37一、抽样分布的概念(续)通过图4.1总体分布和图4.2样本均值的抽样分布的比较,不难看出:尽管总体为均匀分布,但样本均值的抽样分布在形状上却是对称的。38一、抽样分布的概念(续)抽样分布的形成过程可概括为图4.3:xxx39抽样分布反映了样本指标的分布特征,是抽样推断的重要依据。根据样本分布的规律,可揭示样本指标与总体指标之间的关系,估计抽样误差,并说明抽样推断的可靠程度。40二、抽样分布的形式抽样分布的形式与原有总体的分布和样本容量n的大小有关。(1)若总体的分布是正态分布,且方差已知,则无论样本容量是大是小,样本均值的抽样分布都服从正态分布。(
本文标题:统计学 抽样与抽样分布
链接地址:https://www.777doc.com/doc-3203974 .html