您好,欢迎访问三七文档
2019/8/201第三章分层随机抽样3.1概述3.2简单估计量及其性质3.3样本量在各层的分配3.4回归估计量及其性质3.5各层样本量的分配3.6总样本量的确定2019/8/202简单随机抽样只适合小型的抽样调查:1.抽样框2.代表性如:了解中国各民族的情况:(鄂伦春族)2019/8/203第一节概述一.定义与作用(一)分层抽样和分层随机抽样先将总体N个单元划分成L个互不重复的子总体,每个子总体称为层,它们的大小分为别,这L个层合起来就是整个总体(N=)。然后,在每个层中分别独立进行抽样,这种抽样就是分层抽样,所得到的样本称为分层样本。如果每层都是简单随机抽样,则称为分层随机抽样,所得到的样本称为分层随机样本。LNNN,...,21LhhN1不重不漏2019/8/204各层中的抽样是独立进行的,因此,在各层中所采取的抽样手段完全可以不相同,在一个层进行简单随机抽样,在另一层则可采用更复杂一些的抽样,完全视各层的情况不同而定,这种因地制宜的手段将使样本尽可能反映总体的特性以及子总体的特性。分层抽样有时也称为类型抽样或分类抽样。2019/8/205分层随机抽样三原则:(1)每层都抽样;(2)各层都独立地抽样;(3)各层的抽样都是简单随机抽样。2019/8/206(二)特点:1.分层抽样的抽样效率较高,也就是说分层抽样的估计精度较高。注意:分层抽样估计量的方差只和层内方差有关,和层间方差无关。2.分层抽样不仅能对总体指标进行推算,而且能对各层指标进行推算。如:消费物价指数(全国和各省)3.层内抽样方法可以不同,而且便于抽样工作的组织。2019/8/207(三)作用可以对各层的参数进行估计,有助于提高估计精度。2019/8/208二.使用场合应用条件:适合于各层差异较大,有进行分层的辅助信息。层的划分原则:1.层内单元具有相同性质,通常按调查对象的不同类型进行划分,这时,分层抽样能够对每一类的目标量进行估计。2.尽可能使层内单元的标志值相近,层间单元的差异尽可能大,从而达到提高抽样估计精度的目的。3.既按类型又按层内单元标志值相近的原则进行多重分层,同时达到实现估计类值以及提高估计精度的目的。4.为了抽样组织实施的方便,通常按行政管理机构设置进行分层。2019/8/209如:对全国汽车货运量调查,目的是不仅要了解全国货运量,而且推算不同经济成分货运量。首先为组织方便,按省分层;各省再按经济成分分层;为提高抽样效率,再按吨位分层。2019/8/2010三.符号说明层号:h(h=1,2…,L)第h层的记号如下:单元总数:样本单位数:第i个单元标志值为:从该层中抽取的样本的单元值为:层权:抽样比:总体均值:样本均值:hNhn),...,2,1(hhiniyNNWhhhhhNnfhNihihhYNY11hnihihhyny11),...,2,1(hhiNiY2019/8/2011层内方差:样本方差:212)(11hNihhihhYYNShnihhihhyyns122)(112019/8/2012第二节简单估计量及其性质一.总体均值的估计(一)简单估计量的定义对于分层样本,对总体均值的估计是通过对各层的的估计,按层权加权平均得到的。公式为:YhYhWLhhhhLhhstYNNYWY11ˆ1ˆˆ2019/8/2013如果得到的是分层随机样本,则总体均值的简单估计为:(二)估计量的性质性质1对于一般的分层随机抽样,如果是的无偏估计(h=1,2,…L),则是的无偏估计。即对各层估计是无偏的,则对总体的估计也是无偏的。的方差为:YLhhhhLhhstyNNyWy111hYˆhYstYˆYstYˆLhhhstYVWYV12ˆˆ由于各层的抽样是相互独立的2019/8/2014证明:因各层抽样是相互独立,则也相互独立,则有LhhhLhLjhhLhhstYVˆ,Yˆcov2YˆVWYˆˆhYˆ0Yˆ,ˆcovjhY2019/8/2015性质2对于分层随机抽样,是的无偏估计,的方差为:styYLhhhLhhhhhLhhhhLhhhhhLhhhstNSWnSWSNnWSnfWyVWyV1212221212212111)()(sty2019/8/2016性质3对于分层随机抽样,的一个无偏估计为:)(styVLhhhLhhhhhLhhhhLhhhstNsWnsWsnfWyvWyv12122212121)()(2019/8/2017注:当适当的大,各层样本平均数均可适用正态近似,因此一般地也适用于正态近似其置信区间。hhhhnNnN与,styhy2019/8/2018二.总体总量的估计(一)简单估计量的定义总体总量Y的估计为:分层随机样本:(二)估计量的性质性质4对于一般的分层抽样,如果是偏估计,则是Y的无偏估计。的方差为:LhhstYYNY1ˆˆˆYYˆYˆstYˆstyNYˆ2019/8/2019LhhststYVYVNYNVYV12)ˆ()ˆ()ˆ(LhhhLhhhYVNYVWN12122)ˆ()ˆ(2019/8/2020性质5对于分层随机抽样,的方差为:性质6对于分层随机抽样,的一个无偏估计为:Yˆ)ˆ(YV212121)ˆ()ˆ(hLhhhhLhhhSnfNYVNYV212121)()ˆ(hLhhhhLhhhsnfNyvNYv2019/8/2021【例3.1】调查某地区的居民奶制品年消费支出,以居民户为抽样单元,根据经济及收入水平将居民户划分为4层,每层按简单随机抽样抽取10户,调查获得如下数据(单位:元),估计该地区居民奶制品年消费总支出及估计的标准差。69P2019/8/2022样本户奶制品年消费支出层居民户总数样本户奶制品年消费支出12345678910120010400110151040809002400501306080100551608516017037501802601100140602001803002204150050351502030251030252019/8/2023解:N=200+400+750+1500=2850=10(h=1,2,3,4)各层的层权及抽样比为:hn52632.02850150026316.0285075014035.0285040007018.0285020044332211NNWNNWNNWNNW0067.01500100133.075010025.04001005.020010444333222111NnfNnfNnfNnf2019/8/2024各层样本均值及样本方差为:241651055.39143211111yyyynynii333.193556.8205667.2166722.1624)y(1124232212111211sssynsnii2019/8/2025该地区居民奶制品年消费总支出:估计量方差及标准差的样本估计为:2096502415001657501054005.39200ˆ41hhhyNY82h41hhh2h41221039.5snf1N)()ˆ(hhhyvWNYv2019/8/2026在95%的概率保证下该地区居民奶制品年消费总支出区间为:)(23208)ˆ()ˆ(元YvYs元之间即在2551381641622320896.1209650)ˆ(ˆYtsY2019/8/2027【例3.2】某市进行家庭收入调查,分城镇居民和农村居民两部分抽样,在全部城镇23560户中抽取300户,在全部农村148420户中抽取250户(均按简单随机抽样进行),调查结果是城镇年平均户收入为15180元,标准差为2972元;农村年平均收入为9856元,标准差为2546元。求全市年平均户收入的估计及其90%的置信区间。2019/8/2028解:)(39.1058573.850566.20799856863.015180137.0863.0171980/148420137.0171980/23560171980,148420,235602211212121元yWyWyWWNNNNNst2019/8/202920245.5225.5277.2029725.52)72.1931005.987(171980/2546863.02972137.0)2502546863.03002972137.0(22222212122LhhhLhhhhstNsWnsWyv2019/8/2030全市年户均收入的置信区间:10585.391.645142.287,即10351.33—10819.45(元)注:由于城镇居民与农村居民收入水平,抽样比不同(前者大于后者)。如果不分层,计算样本平均数作为全市户均年收入是不合理的:287.142ststyvys12760550/250985630015180y2019/8/2031三.总体比例的估计(一)简单估计量的定义总体比例P的估计为:(二)估计量的性质如果定义1,第i个单元具有所考虑的特征0,其他i=1,2…NLhhhstpWp1iY2019/8/2032性质7对于一般的分层抽样,如果是的无偏估计(h=1,2,…L),则是P的无偏估计.的方差为:性质8对于分层随机抽样,是P的一个无偏估计,的方差为:因为:及hphPstpstpLhhhstpVWpV12)(stphhhhhhhnQPNnNpV1)(hhNN1stp2019/8/2033LhhhstpVWpV12)(hhhLhhhhhhLhhhhhLhhhhhhhhnQPfWnQPNnNWnQPNnNW121212)1()(1)(2019/8/2034性质9对于分层随机抽样,的一个无偏估计为:)(stpV1)1(11)()()(121212hhhLhhhhhhLhhhhhLhhhstnqpfWnqpNnNWpvWpv2019/8/2035【例3.3】了解某地区居民户拥有家庭电脑的情况如下,估计该地区家庭拥有电脑的比例及估计的标准差。样本户拥有家庭电脑情况层居民户总数样本户拥有家庭电脑情况123456789101200000100010024000100000010375011000010104150010000000002019/8/2036解:,2.01021p2.02p,4.0,3p1.01014p0099.01)1()(0263.01)1()(0173.01)1()(0169.01)1()(44444333332222211111nqpfpvnqpfpvnqpfpvnqpfpv2019/8/2037该地区家庭拥有电脑的比例的估计、估计量的方差、估计的标准差为:2.0)1.015004.07502.04002.0200(2850114141hhhhhhstpNNpWp005.0)0099.015000263.07500173.04000169.0200(28501)(1)(222224122hhhstpvNNpv2019/8/2038(三)总体具有所考虑特征单元总数A的估计它的方差及方差估计分别是:07.0)()(ststpvpshLhhststpNNpA1ˆstAVˆstAvˆhhLhhhhhstL
本文标题:第三章分层随机抽样
链接地址:https://www.777doc.com/doc-419694 .html