您好,欢迎访问三七文档
第八章估计和样本容量的确定Chapter8EstimationandSamplesizedetermination本章研究概率抽样的估计问题,不涉及非概率抽样的估计问题。概率抽样估计原理是每个样本单元不仅代表自己,而且还代表被凋查总体中那些没有进入样本的单元。估计就是根据从样本中收集的信息,对总体未知量进行推断的过程。它可以帮助我们依据样本信息推断总体。本章还介绍了样本容量的确定。本章包括以下四个部分:一是如何计算样本中每个回答单元的权数(包括权数的调整值);二是如何计算不同数据类型(定性数据和定量数据)各种统计量(总量、均值和比例)的估计值(实际是点估计);三是如何计算抽样误差和区间估计。四是如何确定样本容量。HowtocomputetheweighofeachrespondingunitHowtoproduceestimatesofdifferentstatisticsfordifferenttypesofdataHowtoevaluatethesamplingerrorforeachestimatebasedontheelectedsample一、加权weighing估计的第一步,就是给每个样本单元或样本中的每个回答单元赋予一个权数。设计权数是每个样本单元所代表的调查总体的单元数,它由抽样设计所决定,其实就是样本单元的入样概率的倒数。等概率抽样的加权Weightingforequalprobabilitysampledesigns自加权设计的概念。自加权就是所有样本单元的设计权数相同。如简单随机抽样、系统抽样。对于分层抽样,如果按各层的大小等比例分配样本而且各个层内都使用简单随机抽样,那么它也是自加权设计。举例说明自加权设计。例7.1:一个由N=1000个人构成的总体被划分为两个层:第一层由N1=400名男性组成,第二层由N2=600名女性组成。从中抽取样本量为n=250的一个样本,将样本等比例地分配给各层,使得两层的抽样比都等于n/N=1/4。此时,设计权数是多少?对于男性层,入样概率p1为:41400100111Nnp对于女性层,入样概率p2为:41600150222Nnp这样,每个人都有相同的入样概率1/4,设计权数w皆等于4。4w不等概率抽样设计的加权Weightingforunequalprobabilitysampledesigns当采用的抽样方法不是等概率抽样时,正确地使用设计权数就显得尤为重要。举例说明不等概率抽样设计的加权。例7.2对于一项公共交通系统调查,总体由1100人组成,并按城乡分为两个层。城市层N1=1000,农村层N2=100。抽取一个n=250的样本:城市层n1=200,农村层n2=50。层总体大小样本量城市N1=1000n1=200农村N2=100n2=50各层的权数是层单元入样概率的倒数:城市层:农村层:5200000,1111,nNwd250100222,nNwd对无回答的权数调整Weighadjustmentfornonresponse(1)无问答主要有两种类型:项目无回答:指被调查者虽然接受调查,但是仅仅回答了问卷的一部分。因而不能得到某些项目的信息。在这种情况下,最常用的处理方法就是对缺失数据作插补。插补就是在审核过程中用于解决辨别出来的数据缺失、无效与不一致等问题的过程。Allsurveysuffersfromnon-response.Thisreferstothesituationwhereinformationfromsampledunitsisunavailableforsomereason.Itmaybethattheunitsselectedinthesampledidnotprovidealloftherequestedinformationorthatsomeoftheprovidedinformationwasunusable单元无回答:是指一个样本单元所有或几乎所有的数据都缺失。单元无回答的产生,可能是由于被调查者拒绝参加,或者无法联系,或者无法找到被调查者的住所,或者调查效果无效。这里主要研究单元无回答。(2)无回答的处理办法处理无回答的最简单的办法是忽略它。Theeasiestwaytodealwithnonresponseistoignoreit.如果发现忽略单元无回答是不适当的,最常用的办法是对权数进行调整。无回答者的设计权数需要在回答者间进行重新分配,通常的做法是用一个无回答调整因子乘以设计权数,由此得到无回答的调整权数。(3)无回答调整因子Nonresponseweightadjustmentfactor无回答调整因子是原样本单元的权数和与给出回答的单元的权数和的比值。(4)举例说明无回答调整权数的计算对于自加权设计,这个比值也可以用原样本的单元数与回答单元数的比值(回答率的倒数)来表示。例7.3从一个N=100人的总体中抽取一个n=25人的简单随机样本。结果只有20个人提供了所需的信息。求无回答的调整权数?步骤1:计算设计权数:入样概率p为:每个样本单元的设计权数为4。4110025Nnp步骤2:对无回答的设计权数进行调整。由于在n=25人中只有nr=20人提供了所需的信息此时无回答调整因子为:25.12025rnn步骤3:计算无回答的调整权数。无回答的调整权数wnr等于设计权数与无回答调整因子的乘积:525.14rdnrnnww于是对数据文件中的每一条记录应赋予权数5。不同子总体往往具有不同的回答率,应对这些子总体分别进行无回答调整。例7.2(续)如果在例7.2中回答情况如下:城市层中nr,1=150,农村层nr,2=40,层总体大小样本量回答数量城市N1=1000n1=200nr,1=150农村N2=100n2=50nr,2=40步骤1:各层的设计权数为:城市层wd,1=5,农村层wd,2=2步骤2:各层的无回答调整因子计算如下:城市层:农村层:33.11502001,1rnn25.140502,2rnn步骤3:无回答的调整权数等于设计权数与无回答调整因子的乘积:城市层:农村层:67.633.151,11,1,rdnrnnww5.225.122,22,2,rdnrnnww辅助信息的使用Useofauxiliaryinformation(1)使用辅助信息的两个原因:一是使调查的估计值与已知的总体的真值,或者与从另一调查所得的估计值相匹配;二是为了提高估计值的精度。(2)如何使用辅助信息改进估计量。1)事后分层:在数据收集后,可以利用数据收集的结果,选用其中合适的变量对收集到的样本进行分层,从而对样本的权数进行调整。举例说明如何应用事后分层改进估计量。例7.4为得到某公司职员是否有吸烟习惯的信息,进行了一项调查。从N=78人的名录中抽出了一个n=25人的简单随机样本。在设计阶段,没有可用于分层的辅助信息。在收集关于吸烟习惯的信息的同时,收集了每个回答者的年龄和性别情况。总共有nr=15个人作了回答,样本数据的分布为:回答者数量男性女性总计吸烟的人数178总人数312nr=151.每个回答者的权数以及对无回答的调整计算如下:设计权数是入样概率的倒数:12.32578nNwd假定样本中每个被调查者作出回答的概率都是相同的,用调查的总人数除以回答者的总人数,得无回答调整因子:67.11525rnn无回答调整权数wnr即为设计权数与无回答调整因子的乘积:2.567.112.3rdnrnnww2.利用无回答的调整权数,可得到如下估计值:调查的估计值男性女性总计吸烟人数5.236.441.6总人数15.662.478.0吸烟者的比例0.330.590.53通过无回答调整权数,我们估计出该公司约有16名男性职员和62名女性职员,而且男女的吸烟比例不同。假定调查完成后,我们得到了如下辅助信息:该公司共有42名男性职员和36名女性职员。那么,通过调查所得的估计值(16名男性职员和62名女性职员)与真值之间就存在着明显的差异。3.对样本进行抽样后分层,计算事后分层权数。事后分层权数wpst是(事后)层的辅助变量总和除以该层的回答单元的数量所得的商。在本例中,男性的事后分层权数为:女性的事后分层权数为:14342,男性男性,男性rpstnNw31236,,女性女性女性rpstnNw当使用新权数时,估计值为:事后分层估计值男性女性总计吸烟人数142135总人数423678吸烟者的比例0.330.590.45此时,男性和女性人数的估计值与该公司男性和女性的实际人数一致。注意在每个事后分层的层中吸烟者的比例并没有改变,但总体吸烟者比例的估计发生了改变。在实际中,对每个事后层都计算一个因无回答引起的调整因子,这个因子即总体中各事后层的单元数量N与其事后分层所得的估计值之比(后者用无回答的调整权数进行估计)。本例事后分层调整因子为:男性:女性:69.26.1542ˆ男性男性NN58.04.6236ˆ女性女性NN将这个调整因子应用到无回答调整权数时,就可以得到与前面相同的最终事后分层权数:男性:女性:1469.22.5ˆ,男性男性男性NNwwnrpst358.02.5ˆ,女性女性女性NNwwnrpst等概率抽样设计的比例、平均数与总量的估计Estimatingproportions,averages,andtotalsforequalprobabilitysampledesigns对自加权抽样设计,所有样本单元的最终权数是相等的。因此,计算比例或均值的估计值时,就可以将权数忽略。对总体总量的估计,只需要用同一个设计权数将样本总值放大即可。但是在实际中通常需要根据无回答或事后分层进行调整。例7.5a下面所列的样本数据中,所有回答单元都有相同的最终权数5。数据中有一个定量变量(年龄)和两个定性变量(性别和婚姻状况),对两个定性变量取值的编码如下:性别:婚姻状况:1=男性1=已婚2=女性2=单身回答者的各项样本记录如下:回答者年龄性别婚姻状况权数129115232115345225416125530225638215743115815215922125104912511392251242225135321514181151526215167621517481151815215192421520652151)对总体或总体中某个域的总量估计:Estimatesoftotalsforthewholepopulationorforspecifiedsubgroupofthepopulation总体中男性总数的估计值为样本中男性的总数乘以公共的无回答调整权数wnr:总体中单身女性总数的估计值为样本中单身女性的总数乘以公共的无回答调整权数wnr:4085ˆ,男性rnrnwY2045ˆr,单身女性nwYnr2)如果忽略权数,对总体的比例和平均数的估计如下:Estimatesofproportionsandaveragesforthewholepopulation总体中男性所占比例的估计值即是样本中男性所占的比例:总体中平均年龄的估计值即是样本的平均年龄:4.0208ˆ,rrnnP男性3620652415...453229ˆrSirinyY3)对总体中的域的比例和均值的估计:Estimatesofproportionsandaveragesfordomainsofthepopulation总体中单身女性所占比例的估计值,即样本中婚姻状况回答为“单身”的女性在所有女性样本中所占的比例为:33.0124ˆ,r,女性单身女性rnnP总体中男性平均年龄的估计值即为样本中男性的平均年龄:1.3284818492243163229ˆ,
本文标题:市场调查 估计
链接地址:https://www.777doc.com/doc-3434246 .html