您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业财务 > 应用统计学:经济与管理中的数据分析6
第六章抽样调查基础•基本概念•简单随机抽样•分层随机抽样•多阶段抽样•整群随机抽样•系统抽样•EXCEL实现简单随机数法•案例分析:湖北省人口变动情况抽样调查设计§6.1基本概念抽样(sampling)•概率抽样非概率抽样•不放回抽样放回抽样•等概率抽样不等概率抽样一、抽样单元和抽样框为使抽样能够实施,同时也为了具体抽样的便利,通常将总体划分成互不重叠且有穷尽的若干部分,每个部分称为一个抽样单元(samplingunit)。抽样单元有大小之分。一个大的抽样单元(例如省)可以分成若干个小的抽样单元(例如县),前者称为初级单元或一级单元(primarysamplingunit),后者称为次级单元或二级单元(secondarysamplingunit)。样本中包含的抽样单元数称为样本量(sizeofthesample),样本量与总体单元总数之比称为抽样比(samplingfraction)。记录或表明总体所含全部(初级)抽样单元或一个较大的抽样单元所包含的全部次一级抽样单元的这种名册、清单或地图称为抽样框(samplingframe)。二、误差抽样调查的误差来源:非抽样误差,它是指由于调查中获得的原始数据不准确、抽样框有缺陷、或在调查中由种种原因无法得到按抽样设计方案的全部样本数据等原因引起的。抽样误差,它是由于我们用局部的样本数据对整体的总体参数进行估计所引起的误差。三、精度、信度与效度精度(precision)可以用误差平方的均值(meansquareerror,MSE)来定义。MSE在中文书籍也常常简称为均方误(差)。均方误差越小,精度就越高。除了均方误差外,估计量的精度还可以用相对均方误差(relativemeansquareerror)表示,定义为:三、精度、信度与效度从图中可以直观地看到,A偏倚小(可以理解成样本“重心”和均值参数真值位置之间的系统性误差)而样本的方差(可以理解为调查中的随机误差)大,称这样的抽样调查效度(validity)高而信度(reliability)小;B的系统性误差大而随机误差小,称这样的抽样调查效度差而信度高;相比之下,C的系统误差与随机误差都小,即均方误差小,精度高。§6.2简单随机抽样简单随机抽样(simplerandomsampling)有两种等价的定义:第一,从总体N个单元中,一次抽取n个单元,使全部可能的种不同的结果每种被抽到的概率都等于,通过这种抽样得到的样本叫做简单随机样本,样本容量为n;第二,从总体N个单元中,逐个不放回地抽取单元,每次抽取到尚未入样中的任何一个单元的概率都相等,直到抽足n个单元为止,这样所得的n个单元组成一个简单随机样本nNC1nNC一、简单随机抽样样本容量的确定在给定最大可容忍的绝对误差限和相对误差限的条件下,可以求出所需要的最小样本容量。(一)参数为总体总和或总体均值的情形当需要估计的总体参数是总体总和Y或总体均值时,所用的基本估计量是样本均值,总体标准差为S。给定允许的最大绝对误差限为d或给定相对误差限为r)。此时,确定样本容量的公式如下:(二)参数为总体比例的情形若待估计的是总体所具有的某种特征单元的比例时,估计量是样本中相应比例,同样给定绝对误差限为(或相对误差限为)时,以为显著水平的样本容量为:YY抽样调查的主要目的是通过对样本的观测把握总体特征:二、简单随机抽样的估计方法总体均值:总体总和:总体比例:总体比率:1NiiYYNY11NiiYYYNNAPNYYRXX(一)估计方法对总体特征的估计有两种思路,一种是不借助任何辅助变量直接估计,另一种是借助相关辅助变量间接估计。二、简单随机抽样的估计方法1、简单估计对于简单随机抽样,在没有总体其他相关辅助变量信息可以利用的情况下,用样本特征直接估计总体特征,此时称为简单线性估计(simplelinearestimate),或简单估计。2、比估计比估计(ratioestimator)是一种间接估。如果在调查中,除了调查指标之外,还有一个指标的信息可以利用(比如它的总体均值或者总值已知;也可以直接利用的样本信息),而且与之间存在着比例关系,则可以利用辅助变量的信息构造比估计量,以提高估计的精度。(二)估计量的无偏性(1)总体均值(2)总体总值(3)总体比例(4)总体比率三、简单随机抽样的方差与区间估计简单随机样本的方差为:定义有限总体校正系数(finitepopulationcorrectionfactor)为,其中为抽样比1、总体特征的方差的简单估计样本均值的方差样本总值的方差样本比例的方差总体比率的方差2、比估计量的方差估计样本均值的方差2211()1niisyyn1NnfN21()fvysn221()fvNysNn1()11fvpppn2111()1niiiifVarRyrxnn22212xyxRfVarysRsRsn§6.3分层随机抽样如果大小为N的总体分成L个互不重叠的子总体,其大小分别为,每个子总体称为层(stratum);从每层中独立抽样,这种方法称为分层抽样。若每层抽样都是简单随机的,则称为分层随机抽样(stratifiedrandomsampling)。分层简单随机抽样的示意图12,,,LNNN一、分层随机抽样层数确定与样本量分配(一)确定层数的基本思想对一个未知总体进行分层随机抽样时,首先要确定划分多少层,即确定层数L。但是如果情况不是这样,可以采用以下思想确定层数:考虑费用模型:,其中C为总费用,为每增加一层所需要增加的费用,为每增加一个样本所需要增加的费用。故而,在总费用一定的情况下,层数增加必然导致样本总量减小。增加层数的目的是为了提高精度,但费用给定时它导致的样本容量减少却会降低精度,当增加一个层数带来的边际精度增加与之导致的样本容量减少带来的边际精度减小正好相等时,确定最优层数。一些理论和实际研究表明,一般层数不超过6。snCLCnCsCnC一、分层随机抽样层数确定与样本量分配(二)每层样本量的分配1、比例分配比例分配(proportionalallocation)就是要求在每一层次中所抽取的样本数在样本总数中所占的比例与这一层次的单位数在总体中所占的比例相一致,即,或记为2、最优分配最优分配(optimumallocation)是总费用给定,使估计量的方差达到最小,或者当给定估计量的方差,使得总费用的达到最小的各层样本量的分配方法。3、奈曼最优分配(Neymanoptimumallocation)若假定各层的单位抽样费用相等,即,此时当样本容量固定时,上述最优分配简化成奈曼最优分配:hhnnNN,1,2,,hffhL11hhhhhLLhhhhhhnWSNSnWSNS二、分层随机抽样估计量及其性质(一)估计量1、简单估计总体均值的分层估计值采用各层的均值的估计值按层权的加权平均值:。比估计在进行分层抽样时有两种方法,一种是对每层样本分别计算比估计量,然后对各层加权平均,此时称为分别比估计(separateratioestimator);另一种则是先对总体均值或总体总值进行估计,然后用它们的分层估计构造比估计量,这种方法称为联合比估计(combinedratioestimator)。stYhYhY1LhsthhYWY二、分层随机抽样估计量及其性质(二)估计量的性质1、简单估计在分层抽样中,是的无偏估计:;若是的无偏估计,则是的无偏估计:;总体比例的随机简单估计是无偏的。stYYststEYEyYhYhYstYYhhstEYYEYYPstEpP2222112LhhyhhhyhxhhxhRSRShhfMSEyVaryWSRSSRSn2、比估计对于分层随机抽样的分别比估计,若各层的样本量都较大,则有:§6.4多阶段抽样一、多阶段抽样概述多阶段抽样(multi-stagesampling)是将整个抽样过程分成若干各阶段,每一个阶段分别抽出一个级别的单位,最终抽出被调查者。多阶段抽样可以是两阶段、三阶段或者更多阶段抽样。这里主要介绍两阶段抽样。假设总体由N个初级单元组成,每个初级单元又由若干个二级(次级)单元组成,若在总体中按一定的方法抽取n个初级单元,对每个被抽中的初级单元再抽取若干二阶单元进行调查,这种抽样被称为二阶段抽样(two-stagesampling)。§6.4多阶段抽样二、估计量及其性质(一)估计量1、总体均值:如果采用简单随机抽样的方法,第一阶段抽出n个初级单元,第二阶段从每个抽中的单元中抽出m个次级单元,其中每个初级单元都含有M个次级单元,且对每个初级单元,第二阶段抽样是相互独立的,则样本按次级单元的均值是总体均值的无偏估计(用两个杠为了强调是二阶段抽样),即2、总体比例yYEyY1111nniiiippanmn(二)估计量的性质1、总体均值的方差其中,是第一阶段抽样的抽样比,是第二阶段抽样的抽样比,表示总体初级单间的方差,表示总体中同一初级单元中次级单元间的方差。2、总体总值方差总体总值的无偏估计量为:3、总体比例的方差总体中具有某种特定特征的次级单元对总体中所有次级单元数的比例P的无偏估计量p的方差为估计量的方差的一个无偏估计为:22121211ffVarySSnmn1nfN2mfM21S22S22111()1NiiSYYN222111()1NMiijijSYYNM22VaryNMVaryVarp21211111111NNiiiiiffMVarpPPPPnNmnNM212121111111nniiiiifffVarpppppnnnm§6.4多阶段抽样§6.5整群随机抽样一、整群随机抽样概述设总体由一些大单元,即初级单元(primaryunit)组成,每个初级单元又由若干个较小的次级单元(secondaryunit)组成。从总体中按某种方式抽取某些初级单元,观测其中所包含的所有次级单元,这样的抽样称为整群抽样(clustersampling),或者称为单阶整群抽样(single-stageclustersampling)。如果总体中的单元可以分为多级,则可以对前几级单元采用多阶段抽样,而在最后一阶段中对该级抽样单元中所包含的全部最低级单元进行观测,此即多阶段整群抽样(multi-stageclustersampling)。二、群划分的原则关于群的划分,有两个问题:一是如何定义群,即当群并非是一个自然形成的单位时,如何确定每个群的组成;二是如何确定群的规模,即群的大小。§6.5整群随机抽样三、群规模大小相等时的估计量及其性质(一)总体特征的估计量总体均值:是无偏的:;总体总值:是无偏的:;总体比例:是无偏的:;111nMijijYyynMEyY11nMijijNYNMyynENMyYPpEpP(二)方差的估计考虑总体的与样本的总方差分别为总体群间方差和样本群间方差分别为总体群内方差和样本群内方差分别为1、总体方差的估计在整群抽样中,总体方差可以分解为:2、总体特征的方差总体均值的估计量的方差为的无偏估计为总体比例的估计量的方差为进而的无偏估计为2222111111,11NMnMijijijijSYYsyyNMnM222111222111111111NMNbiiijinMnbiiijiMSYYYYNNMsYYyynn221122111(1)1(1)NMwijiijnMwijiijSYYNMsyynM2221(1)(1)(1)bwSNsNMsNMVary21bfVarySnM21bfVarysnM211
本文标题:应用统计学:经济与管理中的数据分析6
链接地址:https://www.777doc.com/doc-6425357 .html