您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 抽样估计与样本量确定
第10章抽样估计与样本量确定10.1引言10.2加权及权数调整10.3抽样分布与抽样误差10.4参数估计10.5样本量的确定110.1引言抽样调查的目的是用样本推断总体。确定样本权数是估计过程中一个重要组成部分。当确定了每个样本单元的权数后,就可以将它们应用于抽样估计,包括总体总量、均值和比例等简单估计值的计算,抽样误差的估计。210.2加权及权数调整估计的第一步,是给每个样本单元或样本中的每个回答赋予一个权数。权数指每个样本单元所代表的调查总体的单元数,由抽样设计决定,所以通常称为设计权数(即样本单元入样概率的倒数)10.2.1等概率抽样的加权10.2.2不等概率抽样加权10.2.3权数的调整dw310.2.1等概率抽样的加权(自加权设计)1001200020111NnP4入样概率入样概率100112000120222NnP入样概率1001600060333NnP10010011dw设计权数10.2.2不等概率抽样加权纽曼分层抽样即是一种不等概率抽样。1.603.332000111,nNwd高收入阶层:50.903.13312000222,nNwd中收入阶层:2.1803.336000333,nNwd低收入阶层:各层样本单元权数10.2.3权数的调整无回答时需要对权数调整;考虑来自其他渠道、更具权威性的某些辅助信息,合并到权数中。1.对无回答的权数调整2.使用辅助信息调整权数3.事后分层4.比率估计61.对无回答的权数调整无回答调整因子是原来样本单元的权数与给出回答的单元的权数和的比值。对于自加权设计,该比值也等于原样本单元数与给出回答的单元数的比值。72.使用辅助信息调整权数原因:首先,应使调查的估计值与已知的总体总值相匹配,非常重要;其次为了提高估计值的精度。辅助信息还可以用来对不同子总体所对应的不同无回答率进行修正。还可以用来调整由于抽样框涵盖误差导致的调查总体与目标总体之间的差异所造成的影响。83.事后分层数据收集之前,我们可能无法得到合适的分层信息(如年龄或性别),或者抽选样本后可以得到更新、更可靠的分层信息。在数据收集之后,可以利用收集的信息对样本进行分层,从而对样本的权数进行调整,这就是所谓的事后分层。9例10-5利用设计权数计算调查估计值10例10-51155.655360,,男性男性男性rpstnNw33.945420,,女性女性女性rpstnNw4.比率估计比率估计:用一个乘数因子对各类权数进行调整,这个乘数因子就是各类的辅助变量值与同类的样本估计值的比率。如例10-5中,男性层的调整因子(男性数量与男性估计值之比)即是一种乘数因子。1210.3抽样分布与抽样误差总体分布:总体各单位的观测值所形成的频数分布。样本分布:一个样本中各个观测值形成的频数分布。抽样分布:样本统计量的抽样分布是一种理论分布,是指在重复抽取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。1310.3.1样本均值的抽样分布及抽样误差例10-6:一个总体,含四个元素1、2、3、4,现抽取n=2个简单随机样本。5.2443211NxNii总体均值1425.1-122NxNii总体方差抽样均值及方差15结论1)2)OR3)若总体那么,4)总体不服从正态分布,当样本量足够大时(大于等于30),样本均值也服从正态分布。xE16nSx22nSx2,~NXnNx2,~10.3.2样本比例的抽样分布及抽样误差NN0总体比例17nn0样本比例样本容量足够大时pE样本比例期望值重复抽样条件下nSp12样本比例方差10.3.3正态分布及标准值ZxZ18标准化100x150x1P223-224例题在一项样本量为400的抽样调查中,得知某市夏天人均冷饮消费额50元,标准差50元,而数据直方图表明冷饮消费量近似于正态分布。根据初步的数据分析,可以估计该市夏天冷饮费100元以上消费者的比例。1910.4参数估计参数估计就是根据从样本中收集的信息对总体参数进行推断的过程。根据中心极限定理等推断理论所阐明的抽样分布与总体分布之间的关系,由样本统计量的具体值(估计值)估计总体参数。点估计区间估计20点估计用样本的估计量直接作为总体参数的估计量。存在抽样误差。区间估计在点估计的基础上,对总体参数的区间或范围进行估计(样本统计量加减抽样误差),点估计值落在该区间范围内的概率为置信度或置信系数或置信水平。211、总体均值的区间估计nSSx22当总体标准差未知时,一般通过样本标准差S来估计总体标准差当总体标准差已知时,样本均值标准误可以通过如下公式:nSx例10-7232、总体比例的区间估计pSZp224—样本比例的标准误差pS已知时总体比例nSp-1未知时总体比例nppSp-1例10-8697.0603.0047.065.040065.0-165.096.165.02,pSZp253、总体方差的区间估计对于来自正态总体的简单随机样本,则(n-1)倍的样本方差与总体方差的比值的抽样分布服从自由度为(n-1)的x2分布。总体方差在1-a置信水平下的区间估计为:1~1222nsn261~2212nsxxniior111122-122222nsnnsn举例P227.1.10~3.6%9551.10275.396120.2037.601-361604.5337.601-36%95.6120.201,1604.531.37.60,5.39.975.021,025.02%,951,362222212222岁户年龄标准差为的置信度下,信用卡用结论是:在即,:置信度下的置信区间为在该银行信用卡年龄方差分布表得知:查根据样本计算得:已知:nnsxn27练习题课后思考与训练题P237-238第4、5、7题2810.5样本量的确定样本量的确定问题,首先涉及对总体参数估计值的精度要求,同时也涉及与各种运作限制(如可获得的预算、资源和时间)之间的平衡问题。抽样调查估计值的精度是对抽样误差大小的度量。因此确定样本量是为控制抽样误差,而不是非抽样误差。2910.5.1估计精度与样本量之间的关系)抽样误差的范围(总体参数的估计值总体参数E%100212)调查回答率随机抽样)放回(重复)的简单假定条件:xSZE30但实际抽样调查中,以上假定条件可能很难都满足。如样本可能不是重复抽样;抽样方法可能是分层抽样、系统抽样、分群抽样,而非简单随机抽样;调查的回答率实际上很少能达到100%pSZp210.5.2假定条件下样本量的计算及其应用考虑1、确定样本量的基本公式1)给定总体均值估计的精度下确定样本量的公式22222:EZnnnSSZExx解得样本量样本均值的标准误差:重复的简单随机抽样下抽样误差范围:312)给定比例估计的精度下确定样本量的公式如果在以往调查中可以得到总体比例的一个较好的估计,那么直接代入公式即可。否则可以取π=0.5,因为此时总体的方差最大。22221:1EZnnnSSZEpp解得样本量样本比例的标准误差:重复的简单随机抽样下抽样误差范围:322、对样本量基本公式的应用考虑1)多大抽样误差对调研目标而言是可以接受的2)是否需要对调查总体中的子总体(域)进行估计3)相对于调查估计值的抽样误差应该多大为宜4)精度要求的实际含义是什么33精度要求与样本量340.06930.019610.5.3关于确定样本量的现实复杂考虑及计算1、关于确定样本量的现实复杂考虑1)总体的变异程度2)总体大小3)样本设计和估计量4)调查的回答率351)总体的变异程度总体的变异程度是指总体单位特征的一致性,可用方差或标准差来衡量。为确定调查所需样本量,首先需要得到目标总体的研究指标变异程度的估计值。但通常情况下变异的真值是未知的,需要从过去相关主题的调查或试调查中得到它的估计值。为确保达到调查要求的精度,在计算样本量时,建议对某一指标的总体变异程度采取保守估计,例如二元变量应假设变异程度50%-50%,p=0.5,此时方差最大。362)总体大小确定样本量的基本公式中,样本量的确定与总体没有关系(大总体的重复抽样)。而实际抽样中总体单元数量可能是有限的,样本抽取采取不放回的非重复抽样,此时总体大小对样本容量的影响就不可忽视。37非重复抽样下的样本量计算NZEZnnNnnSSZEpp11:解得样本量-11:下样本比例的标准误差非重复的简单随机抽样抽样误差范围:222222NZEZnnNnnSSZExx22222222:1解得样本量:下样本均值的标准误差非重复的简单随机抽样抽样误差范围:38总体大小对确定样本量的影响(表10-11)样本量随总体大小变化的趋势217794427835737038338438401002003004005005010050010005000100001E+051E+061E+07总体大小样本量39883)样本设计和估计量以上所讨论的抽样方法都假定的是简单随机抽样,当调查采用了复杂的样本设计时,就应考虑实际使用抽样设计的效率,并对计算样本量的基本公式作出调整。通常的做法是在简单随机抽样的样本量计算公式的基础上乘以一个设计效应因子。设计效应(Deff)是指在给定抽样设计下估计值的抽样方差,与相等样本量下的简单随机抽样的估计值的抽样方差之比。40设某一抽样设计样本估计值的方差为,同等样本量的简单随机抽样设计的样本估计值的方差为在抽样设计效应Deff为:对于分层抽样设计,设计效率一般小于等于1;对于整群抽样设计,设计效率一般大于等于1.2)ˆ(1S412)ˆ(0S效率低于简单随机抽样,实际采用的抽样设计效率高于简单随机抽样,实际采用的抽样设计,简单随机抽样1Deff1Deff1DeffDeff2)ˆ(2)ˆ(01SSDeff01nn4)调查的回答率指调查回收的有效问卷数占计划访问的样本数量的百分比。为了达到要求的精度,调研机构需要根据预计的回答率调整样本量的大小。rnnt1—预计的回答率——理论上确定的样本量——调整后的样本量—rnnt1422、基于现实复杂考虑的样本量的计算对一般抽样设计,假设调查回答率小于100%,在给定比例估计精度条件下,确定样本量的过程是从计算初始样本量开始的,然后根据总体的大小、设计效应和回答率分别对它进行调整,最后求得最终样本量。43以比例估计为例计算样本量的步骤第1步:计算初始样本量(满足两个假设条件)。第2步:根据总体大小对初始样本量进行调整。①方差估计中直接考虑总体大小的调整因子②初始样本量基础上乘以总体大小的调整因子第3步:根据实际的抽样设计效应因子对样本量继续调整第4步:根据预计回答率r再次调整,得最终样本量22201EZnNZEZn1122222144001nNNnnDeff12nnrnn23例10-945方案一:假设不需要各层精确估计已知:N=760000,E=0.05,r=0.65,a/2=(1-95%)/2=0.025,标准值Za/2=1.96,π=0.5(没有历史资料,取方差最大)。第1步:计算初始样本量第2步:根据总体大小调整样本量第3步:根据设计效应调整样本量第4步:根据预计回答率再次调整样本量38405.05.0-15.096.
本文标题:抽样估计与样本量确定
链接地址:https://www.777doc.com/doc-6905446 .html