您好,欢迎访问三七文档
第七章统计抽样1/52统计抽样主要研究什么内容,解决什么问题?抽样方法主要有哪几种方法?如何确定样本容量?第七章统计抽样2/567.1统计抽样基本概念总体由研究对象的全体所组成。样本是总体中的部分元素所组成的集合。目标总体是我们要推断的总体抽样总体是实际抽取样本的总体第七章统计抽样3/56在抽样之前,应将总体划分为抽样单位。抽样单位既可以是一个简单的个体,也可以是一组个体。对某一个特殊研究,抽样单位的名册称为抽样框。7.1统计抽样基本概念第七章统计抽样4/56调查方法邮寄调查电话调查个人采访调查7.2抽样调查种类和抽样方法第七章统计抽样5/56调查误差非抽样误差抽样误差由于没有对总体的所有单位进行调查而产生的误差进行一次抽样调查可能出现的如测量误差、采访者误差及数据处理误差等。7.3调查误差第七章统计抽样6/56从一个容量为N的有限总体中抽取得到一个容量为n的简单随机样本,使每一个容量为n的可能样本,都有相同的概率被抽中。建立抽样框根据随机数表进行抽样抽样总体中所有个体的名册使用随机数表,可以保证抽样总体中的每个个体都有相同的概率被抽中7.4简单随机抽样第七章统计抽样7/56总体均值总体比率样本容量的确定7.4简单随机抽样第七章统计抽样8/56如果选择大样本(n≥30),则中心极限定理可以保证的抽样分布近似服从正态概率分布,μ的区间估计为式中,为均值的标准差。1-α称为置信度,为与之对应的临界值。例如,若置信度为95%,则。xxxx2/x2/96.1025.07.4.1总体均值第七章统计抽样9/56当从一个容量为N的有限总体中,抽取一个容量为n的简单随机样本时,均值的标准差的估计值为此时总体均值的区间估计为在抽样调查中,当构造置信区间时,通常取μ=2。因此,在使用简单随机样本时,总体均值的近似95%的置信区间的表达式为:nsNnNsx1xsx2/xsx27.4.1总体均值第七章统计抽样10/56[例7.1]《摄影》是一本推介摄影作品、报道摄影发展状况、介绍摄影器材的杂志,它目前拥有8000个订户。根据一个484个订户的简单随机样本,得出订户的年平均收入为30500元,标准差为7040元。因此,所有订户的年平均收入的无偏估计为元。因此,这本杂志订户的年平均收入的近似95%的置信区间为即(29880,31120)。3104840407100084840008xs62050030310250030=30500x7.4.1总体均值第七章统计抽样11/56上述过程也可用于对诸如总体总量或总体比率等其他总体参数的区间估计。对点估计的抽样分布近似服从正态概率分布的所有情形,其近似95%的置信区间为例如,在《摄影》的抽样调查中,点估计量的标准误差的估计值为,允许误差为2×310元=620元。2点估计值点估计量标准误差估计值元310xs7.4.1总体均值第七章统计抽样12/56总体比率p是总体中具有某些感兴趣特征的个体的比重。[例7.2]在市场调查研究中,人们想了解喜欢某一品牌的消费者比重。样本比率是总体比率的无偏点估计。总体比率的标准差的估计值为因此,总体比率的近似95%的置信区间的表达式如下:pnppNnNsp)1(1psp27.4.2总体比率第七章统计抽样13/56例如,在大宇国际咨询公司的抽样调查中,大宇国际咨询公司也想估计在它服务范围内的500所学校中,使用天然气作为取暖燃料的学校比率。如果在抽出的50所学校中,有35所学校使用天然气作为取暖燃料,则总体500所学校中使用天然气比率的点估计值。比率的标准差的估计值为因此,总体比率的近似95%置信区间为即(0.5758,0.8242)。70.050/35p0621.0507.017.0150050500)-(ps1242.07.00621.027.07.4.2总体比率第七章统计抽样14/56nsNnNsx12/nsNnNB12回忆前面提到的允许误差为“点估计的标准差估计值的2倍”,因此:222(1)4NsnBNs均值的标准差的估计值:7.4.3样本容量的确定第七章统计抽样15/56两步抽样用试点调查或事先检验的结果估计s2估计s2的方法根据以往的资料估计s2由第一步抽取的部分单位,得到的s2的估计值,将此值代入上式,确定出全部样本容量n;然后对第一步确定的全部样本容量,再抽取第二步所需要的其余单位数。7.4.3样本容量的确定第七章统计抽样16/56[例7.3]某大学有5000名毕业生,我们想构造宽度在1000元之内的近似95%的置信区间。对这样规定的置信区间,B=500。在确定n之前,需要估计。假设根据去年所做的同样研究,得知s=3000元。我们可以用这个值来估计。根据B=500、s=3000及N=5000,则样本容量为2s2s97.13930004500500030005000222n7.4.3样本容量的确定第七章统计抽样17/56在估计总体比率时,选择样本容量的公式,与估计总体均值的公式类似。我们只需要将估计总体均值的公式中替换为,即使用上式时,我们必须规定允许误差B和给出的一个估计值。如果没有合适的估计值,我们可以使用代替,这样将保证近似置信区间的允许误差比希望的要小的多。2s)1(pp2(1)(1)(1)4NppnBNppp5.0p7.4.3样本容量的确定第七章统计抽样18/56将总体划分H组从第h层中抽取一个容量为nh的简单随机样本由这H个简单随机样本的联合资料,可得出诸如总体均值、总体总量及总体比率等各种总体参数的估计。分层简单随机抽样的步骤:也称为层7.5分层简单随机抽样第七章统计抽样19/56如果各层内的差异比层间的差异小,则分层简单随机样本可得到更大的精度(总体参数的区间估计将更窄)。各层的划分应依据样本设计者的判断。总体可按部门、地区、年龄、产品类型、销售水平等分层。7.5分层简单随机抽样第七章统计抽样20/56[例7.4]某大学管理学院想对今年的毕业生进行一次调查,以便了解他们开始工作时的年薪。7.5分层简单随机抽样第七章统计抽样21/56在分层抽样中,总体均值的无偏估计是各层样本均值的加权平均数,所用权数为总体在各层的比重。用表示总体均值的点估计,其定义如下:式中:H--层数;--第h层的样本均值;Nh--第h层的单位数;N--总体单位数;对分层简单随机样本,计算平均值的标准差的估计公式为stxHhhhstxNNx1hxHNNNN21HhhhhhhxnsnNNNsst122)(17.5.1总体均值第七章统计抽样22/56某大学管理学院的180名毕业生的样本调查结果7.5.1总体均值第七章统计抽样23/56各专业(层)的样本均值分别为:因此,总体均值的点估计为29350310001500150270001500300310001500200285001500350300001500500stx7.5.1总体均值第七章统计抽样24/56抽样调查中估计均值的标准差所需要的部分计算结果7.5.1总体均值第七章统计抽样25/56上表中因此,总体的近似95%的置信区间为即(29074,29626)。84290903769)(512hhhhhhnsnNN13868.1907084290903769150012stxs276293501382293507.5.1总体均值第七章统计抽样26/56对分层简单随机抽样,总体比率p的无偏估计是各层比率的加权平均数,所用权数为总体在各层的比重。总体比率的点估计定义如下:式中:H--层数;--第h层的样本比率;Nh―第h层的单位数;N―总体单位数;HhhhstpNNp1hpHNNNN217.5.2总体比率第七章统计抽样27/56的标准差的估计值为总体比率的近似95%的置信区间的表达式为stpHhhhhhhhpnppnNNNsst121)1()(1stpstsp27.5.2总体比率第七章统计抽样28/56[例7.5]在某大学的调查中,大学想了解毕业生开始工作时的年薪不低于36000元的比率。180名毕业生的抽样调查结果显示,有20名毕业生开始工作时的年薪不低于36000元,其中会计专业4名,金融专业2名,信息系统专业7名,市场营销专业1名,经营管理专业6名。7.5.2总体比率第七章统计抽样29/56根据总体比率的近似95%的置信区间的公式,开始工作时的年薪不低于36000元的比率的点估计为:故毕业生开始时的年薪不低于36000元的比率近似95%置信区间为(0.0575,0.1387)0981.030615001503511500300307150020040215003504541500500stp221(1)11()924.83050.020311500stHhhphhhhhppsNNnNn7.5.2总体比率第七章统计抽样30/56对分层简单随机抽样,我们可用两阶段过程来选择样本容量。既然人们想估计各层的均值、总量及比率,这两种组合方法都经常使用。确定总样本容量n决定各层应分配的样本单位数决定每层应选择的样本单位数加总得到总样本容量或者7.5.3样本容量的确定第七章统计抽样31/56确定总样本容量n及其分配,可对所有要研究的总体参数提供必要的精度。分配工作就是决定总样本被分配到各层的部分,这些部分将确定各层的简单随机样本的容量。各层的单位数各层内的方差考虑的因素各层选择单位的费用7.5.3样本容量的确定第七章统计抽样32/56一般地,单位数较多的层和方差较大的层应分配较多的样本数目。相反地,对于给定的费用,为了获得更多的信息,则抽样单位成本较大的层应分配较少的样本数目。7.5.3样本容量的确定第七章统计抽样33/56整群抽样需要将总体各个个体分为N组(也称作群),使总体中每个个体只属于一群。总体组1组2个体4个体5个体1个体6个体2个体37.6整群抽样第七章统计抽样34/56例如,我们想调查某省的登记选民。则有两种方法:调查某省的登记选民。有两种方法:第一种方法是建立包含该省所有登记选民的抽样框,然后根据抽样框,选择选民的一个简单随机样本。第二种方法是整群抽样,我们选择用该省各县的清单作抽样框。在这个方法中,每个县(或群)包含一组登记选民,而该省的每个登记选民只属于一群。7.6整群抽样第七章统计抽样35/56分层抽样和整群抽样都将总体划分为组,因此这两种抽样过程感觉上是相似的。选择整群抽样与分层抽样的原因是不同的。当群内的个体存在差异时,整群抽样可提供较好的结果。理想情形是每一群是整个总体的一个缩影,这时,抽取很少的群就可以提供关于整个总体特征的信息。整群抽样与分层抽样的比较7.6整群抽样第七章统计抽样36/56整群抽样的优缺点整群抽样的优点是实施方便、节省经费;整群抽样的缺点是往往由于不同群之间的差异较大,由此而引起的抽样误差往往大于简单随机抽样。整群抽样与分层抽样的匹别整群抽样与分层抽样在形式上有相似之处,但实际上差别很大。分层抽样要求各层之间的差异很大,层内个体或单元差异小,而整群抽样要求群与群之间的差异比较小,群内个体或单元差异大第七章统计抽样37/56[例7.6]某省拥有12000名执业注册会计师的注册会计师协会进行了一项调查。作为调查的一部分,注册会计师协会收集与收入、性别和与注册会计师生活方式有关的因素的信息。因为用个人采访法去搜集所需要的信息,因此注册会计师协会采用整群抽样,以使总的差旅费和采访费用达到最小。抽样框中包含所有在该省登记注册的执业会计师事务所。7.6整群抽样第七章统计抽样38/56假设有1000群,即在该省登记注册的从事会计活动的会计师事务所有1000个,选择
本文标题:7-统计抽样
链接地址:https://www.777doc.com/doc-417170 .html