您好,欢迎访问三七文档
统计学第七章(2010)-1-第七章抽样调查第一节抽样调查的概念和作用一、抽样调查的概念和作用抽样调查又称“抽样法”,就是根据随机原则,从调查对象的总体中抽取一部分单位进行调查,并根据样本资料推断总体的数量特征的统计方法。抽样调查是一种非全面调查,它具有以下三个基本特征:(1)根据部分资料对全部总体的数量特征作出估计。(2)抽取样本时要遵守随机原则。(3)抽样推断产生的抽样误差可事先计算,并加以控制。由抽样调查的上述特点决定了其具有以下作用:(1)对某些不可能进行全面调查的现象总体,可采用抽样调查来了解总体的状况。(2)采用抽样调查可节省人力、物力和时间。(3)可用来评价、修正全面调查资料。此外,还可用于假设检验和质量控制等方面。二、抽样推断中常用的基本概念(一)全及总体和抽样总体调查对象的全部单位构成的整体,亦即具有同一性质的若干单位的集合体,称为全及总体或母体,简称总体。全及总体的单位反映总体的容量,用符号N表示。根据总体容量N及其相应的变量值的个数的多少,可以分为无限总体和有限总体。从全及总体中按照随机原则抽取一部分单位构成的集合体,称为抽样总体,简称子样或样本。抽样总体的单位数反映样本容量,用符号n表示。根据样本容量的多少,可以划分为大样本和小样本。当n≥30时,称为大样本,在社会经济现象的抽样调查中,绝大多数采取大样本;当n30时,称为小样本。抽样总体的单位数远比全及总体的单位数为小,n/N为抽样比例,通常是一个很小的数。(二)全及指标和抽样指标根据全及总体各个单位标志值计算的综合指标,称为全及指标。由于全及总体是唯一确定的,因此全及指标的数值也是唯一确定的,它反映总体的某种属性或特征,也称为总体参数。常用的全及指标有平均数、成数、标准差和方差:1、全及总体某一变量有N个取值的算术平均数,用符号X表示,称为全及平均数或总体平均数。2、具有某种标志的单位数在全及总体中所占的比重,称为全及成数或总体成数,用符号P表示。3、测定全及总体标志值变异程度的指标就是总体方差δ和总体标准差δ。24、上述全及成数的平均数和标准差,也称为交替标志的平均数和标准差。P=N1/N全及总体具有所研究标志值的单位所占的比重或成数为:全及总体不具有所研究标志值的单位所占的比重或成数为:Q=N0/N总体成数之和为:P+Q=N1/N+N0/N=1;Q=1-P在社会经济统计中,有时把某些社会经济现象的全及总体单位划分为两种情况,即具有或不具有某一标志的单位,这两种单位交替出现,非此即彼;例如,全部产品分为合格品或不合格品,在人的总体中按性别分为男性和女性两组等等。这种可用“是、否”或“有、无”表示的品质标志,称为交替标志或是非标志;仍用符号X表示。为了计算交替标志的平均数和标准差,需要把这种标志在性质或属性上的差别过渡到数量上的差异。由于交替标志只有两种具体表现,所以可以用X=1表示总体单位具有某一标志的取值,用X=0表示总体单位不具备这一标志的取值。在全及总体的单位数N中,设N1和N0分别表示具有或不具有这种标志值的单位数,且N1+N0=N,则全及总体具有所研究标志值的比重或成数为:于是,计算交替标志值的平均数和标准差的方法可以表述如下:Q2P+P2Q------P1合计(0-P)2Q(0-P)20-POQ0(1-P)2P(1-P)21-PPP1(X-X)2f(X-X)2X-X(X=P)Xf总体成数fX交替标志值统计学第七章(2010)-2-1交替标志平均数X==PΣXfΣf=P+Q1×P+0×Q=PΣ(X-X)2f交替标志标准差δ=Σf=PQ=P(1-P)与全及指标相对应的抽样指标,就是根据抽样总体各个单位标志值计算的综合指标,常用的抽样指标有:1、抽样总体某一变量有n个取值(即观测值)的算术平均数,记作x,叫做抽样平均数。对某一全及总体进行抽样调查时,可以从中抽取一个样本进行综合观察,也可以抽取几个样本进行综合观察,每个样本可以计算出相应的抽样指标。由于样本不同,抽样指标的数值也各不相同,就不是唯一确定的值。因此,抽样指标是样本变量的函数,是随机可变的变量。也就是说,由样本观测值所决定的统计量是随机变量。2、具有某种标志的单位数在抽样总体中所占的比重,称为抽样频率或抽样成数,记作þ。3、说明抽样总体标志变异程度的指标,就是样本标准差,记作S,用S表示样本方差。2下面把全及指标和抽样指标不同的表示方法列表如下:n样本容量N总体容量S2样本方差δ2总体方差S样本标准差δ总体标准差p抽样成数P全及成数x抽样平均数X全及平均数符号抽样指标符号全及指标第二节抽样推断的基本原理抽样推断的主要任务就是从抽样平均数(x),正确推断全及平均数(X),从抽样成数(p)正确推断全及成数(P)。一、抽样推断的方法论基础1、大数定律,又叫大数法则2、中心极限定理二、抽样估计的基本要求:无偏性、一致性和有效性。第三节抽样误差一、抽样误差的概念抽样误差是指不包括调查误差和系统性误差在内的随机误差,亦即在遵守随机原则的条件下,指标代表全及指标不可避免的误差。用抽样在统计调查过程中所得出的统计数字,与客观实际数量之间存在一定的差别,统称为统计误差。由于造成统计误差的原因不同,它可以分为调查误差和代表性误差。调查误差是指在调查过程中,由于各种主观和客观因素而引起的技术性、登记性误差以及责任性误差等。代表性误差是指从抽样总体得出的指标数值与全及总体的指标数值之间可能存在的误差,它可以反映抽样总体在多大程度上代表全及总体,所以称为代表性误差。全面调查只产生调查误差,而进行抽样调查时,调查误差和代表性误差都可能发生。代表性误差也有两种不同的情况:(1)由于破坏抽样的随机原则而产生的系统性误差,这种误差也称为“偏差”。(2)随机误差是指在抽样调查过程中,按照随机原则从全及总体中抽取部分单位作为抽样总体,具有随机性或偶然性,因此抽样总体与全及总体在结构上不可能是一致的。抽样误差是指不包括调查误差和系统性误差在内的随机误差,亦即在遵守随机原则的条件下,用抽样指标代表全及指标不可避免的误差,其中主要包括抽样平均数与总体平均数的差数(x—X),抽样成数与总体成数的差数(p—P)。抽样误差也不是唯一确定的,而是随机变量。抽样误差愈小,说明样本的代表性愈高;反之,样本的代表性愈低。制约抽样误差的因素主要有以下几种:在其他条件不变的情况下,抽样误差的大小与抽样单位数的多少成反比,即抽样单位数愈多,抽样误差就愈小;反之,抽样单位数减少,抽样误差增大。1、抽样单位数(n)的多少2、总体被研究标志的变异程度抽样误差的大小与体及总体标志的变异程度成正比,即总体标志的变异程度越大,抽样误差就越大;反之,总体标志的变异程度越小;抽样误差就越小。3、抽取样本的方法4、抽样调查的组织形式统计学第七章(2010)-3-二、抽样平均误差抽样误差具有双重的含义。第一,是指某一次抽样结果所得的样本指标数值与总体指标数值之间的差别,可以称之为实际误差,一般是无法获知的。第二,是指抽样平均误差,简称平均误差,亦即一系列抽样指标(抽样平均数或抽样成数)的标准差。在抽样理论和实践中,所谓的抽样误差一般是指抽样平均误差,它在抽样推断或估计中具有重要意义。各种误差可以图式表示如下:调查误差(登记性误差)统计误差偏差(系统性误差)代表性误差随机误差(抽样误差)实际误差抽样平均误差(无法计算)样本指标主要有抽样平均数和抽样成数,因此,测定样本指标的平均误差也有两种。(一)抽样平均数的平均误差•抽样平均数的平均误差就是抽样平均数的标准差,它反映抽样平均数的所有可能值对全及平均数的平均离散程度不同,亦即反映误差平均值的大小,所以称为抽样平均误差,记作UX。根据数理统计原理可以证明,在重复简单抽样条件下,nUX=δ2nδ=•上式表明,抽样平均数的平均误差就是抽样平均数的标准差,所以也可以记作δX。它和总体标准差成正比,与样本单位数的平方根成反比。上式证明,根据抽样平均数对未知的全及平均数可以作出具有一定程度的准确性和可靠性的估计。采用不重复抽样时,抽中的单位不再放回,总体单位数随之而逐渐减少,余下的每个单位被抽中的机会就会增多。因此,不重复抽样的误差小于复复抽样的误差。•从一个由N个单位组成的全及总体中,采用不重复随机抽样取得的样本,与采用重复随机抽样取得相同抽样单位数n的样本比较,应都能够提供准确度较高的估计。其抽样平均误差的计算,需要在上列公式中乘上一个校正因子N—n加以修正,N—1如用公式表示,就成为如下的形式:N—nUx=N—1=δ2nN—nN—1δn(二)抽样成数的平均误差•计算抽样成数的平均误差的方法和计算抽样平均数的平均误差的方法原则上是一样的,只要将全及成数的方差代替上面的两个公式中的全及平均数的方差δ,即可得出计算抽样成数的平均误差(记作Uþ)公式。在第一节中已经介绍,全及成数的方差为P(1-P),也称为交替标志的方差。用P(1-P)代替δ,即得如下的公式:22(1)在重复抽样条件下:P(1-P)Uþ=n(2)在不重复抽样条件下:n(1—)P(1-P)Uþ=nN[在总体单位数N很大的情况下,校正因子的分母(N—1)接近于N,这个因子就可以写作(1—),也称为有限总体校正系数]。Nn在上述计算抽样平均误差的公式中,都涉及到全及平均数的标准差δ和全及成数的标准差P(1-P),但在提样推断过程中,这两个指标是未知的。因此在实际工作中,一般采用样本标准差S和样本成数的标准差þ(1-þ)来替代。数理统计理论和抽样实践证明,只要抽样组织工作合适,当总体容量(N)和样本容量(n)都足够大时,用抽样总体的标准差代替全及总体的标准差来计算抽样平均误差,可以取得有效的结果。统计学第七章(2010)-4-上述抽样平均误差只是衡量抽样误差的一种尺度,反映抽样指标与全及指标偏差的平均状况,而不是抽样指标数值与全及指标数值之间的实际绝对误差。这种实际绝对误差是无法求得的,只能设法将其控制在一定的可能范围内。如前所述,全及指标数值是一个未知的确定数值,而抽样指标数值则是在全及指标数值上下两侧出现的随机变量,它与全及指标数值可能产生正的或负的离差。因此,样本估计值与总体参数之间存在一个误差范围。抽样误差范围就是变动的抽样指标数值与确定的全及指标数值之间离差的可能范围。它是用一定的概率来保证抽样误差不超过某一给定的最大可能范围,这个范围的绝对值就称为抽样极限误差,又叫做置信区间,记作△(希腊字母△,读Delta)。于是三、抽样极限误差•(1)抽样平均数的抽样极限误差,就是以绝对值形式表示的抽样误差的可能范围,用符号表示,即:△X=x—Xx—△X≤X≤x+△X(2)抽样成数的抽样极限误差,就是以绝对值形式表示的抽样误差的可能范围,用符号表示,即:△P=p—Pp—Δp≤P≤p+Δp以上不等式适应抽样估计的要求,即表述为被估计的全及指标数值包含在抽样指标数值上限和下限的范围内。其中的区间(x—△X,x+△X)称为平均数的估计区间,另一区间(p—△p,p+△p)则称为成数的估计区间。估计全及平均数或全及成数包含在上述相应的范围之内,叫做区间估计。四、抽样估计的可信程度抽样平均误差是衡量误差范围的尺度,它表明抽样估计的准确程度;抽要限误差则是表明抽样估计准确程度的可能范围。进行抽样估计,既要考虑其准确程度,又应考虑全及指标包含在给定范围内的概率有多大,这就要研究其估计的可信程度或可靠程度。准确程度和可信程度是抽样估计中两个密切相关的问题。基于理论上的要求,抽样极限误差通常是以抽样平均误差作为标准单位来衡量的,亦即用μx或μp分别除Δx或Δp,得出相对数t,称为概率度,表示相对误差范围。用公式表示,即:ΔxΔpt=;t=uxup上式表明了抽样极限误差Δ与抽样平均误差μ的相对关系,因此,抽样极限误差(即抽样误差范围)也可以表示为抽样平均误差的若干倍,其倍数即概率度t:上式的实际意义可以概括如下:抽样极限误差即抽样误差范围Δ可以用t倍的抽样平均误差来表示,在抽样平均误差μ为一定的条件下,当概率度t的数值越大,则抽样误差范围Δ越大,估计抽样平均数或成数落在误差
本文标题:第七章 抽样调查
链接地址:https://www.777doc.com/doc-419644 .html