您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 抽样调查-第7章系统抽样
返回§7.1引言一、系统抽样的定义系统抽样(systematicsampling)是将N个总体单元按一定顺序排列,先随机抽取一个单元作为样本的第一个单元,然后按某种确定的规则抽取其他样本单元的一种抽样方法。返回系统抽样的特点系统抽样是一种被广泛采用的抽样方法,系统抽样比简单随机抽样易于操作,但抽样误差的估计比较复杂。实践中,各种抽样调查,如人口调查、产品质量调查、城乡居民调查等都普遍采用系统抽样。系统抽样中最简单也是最常用的规则是等间隔抽取,这种系统抽样又称等距抽样。返回二、系统抽样的一般方法1.直线等距抽样假设总体单元数为N,样本容量为n,N是n的整数倍.首先计算抽样间距nNk,把总体分为n段,每段k个单元,然后在第一段的k个单元中随机抽出一个单元,假设为r,然后每隔k个单元抽出一个单元.即,,2,krkr直到抽出n个单元.返回例如某学院共有200个学生,要抽10个学生做样本首先计算抽样间距然后在1~20中随机抽出一个数字,假设抽中排在第3位的学生,则其余样本单元依次为第23,43,63,83,103,123,143,163,183位共10个学生抽取.,2010200nNk返回2.循环等距抽样nNk当N不是n的整数倍,即抽样间距不是整数时,实际抽取的样本量是不确定的,每个总体单元入样的概率也是不等的,这时用直线等距抽样就有可能产生偏倚,若采用循环等距抽样则可以解决此问题.其方法是将N个总体单元排成首尾相接的一个圆从1到N中随机抽取一个起点作为起始单元,然后每隔k个单元抽出一个,直到抽出n个单元为止.返回循环等距抽样例如总体有14个单元,欲抽取n=3,则7.4nNk取与之最近的整数.5k然后在总体中随机抽取一个单元作为起点,假设抽中3,即,3r依次抽取,3r,132,8krkr直到抽满。因此样本的编号为:3,8,13。81110133176452912返回3.不等概系统抽样法不等概系统抽样中每个单元的入样概率不相等.最常用也是最简单的不等概系统抽样是抽样.即入样概率与单元大小成比例的系统抽样.令PSiiMNiiMM10表示总体所有单元大小的总和,则0MMnii实施不等概系统抽样最简单的方法是代码法:下面以例7.1来说明【例7.1】设总体由10个行政村组成,N=10,每个行政村的人数见下表.利用系统抽样抽取n=3个行政村.iMPS返回行政村编号人数(Mi)累计人数抽中代码12345678910103432962468473205168146317103535631877961103412391407155318701007231346用系统抽样抽选行政村PS623,3,1870010nMknMMNii返回从[1,k]中随机抽取一个整数r=100,则代码为:r=100,r+k=100+623=723,r+2k=100+2×623=1346,所对应的行政村入样,其序号依次为1,4,8.在系统抽样中,对于特别大的单元一定要注意.如果出现,该单元肯定被抽入样本,而且还可能被重复抽到.为了避免这种情况,可以事先将这些单元抽出直接入样.kMi返回三、总体单元的排序系统抽样时N个总体单元的排序情况大致有以下三种:(1)按无关标志排队(2)按有关标志排队(3)介于上述两者之间返回四、系统抽样的优缺点系统抽样的优点:1.简便易行,容易确定样本单元2.样本单元在总体中分布比较均匀系统抽样的缺点:1.如果单元的排列存在周期性的变化,而抽样者对此缺乏了解或缺乏处理经验,抽取的样本的代表性就可能很差。2.系统抽样的方差估计较为复杂,一般不存在无偏估计量。返回五、系统抽样、整群抽样和分层抽样的关系系统抽样既可以看成一种特殊的整群抽样,又可以看成一种特殊的分层抽样。下面以一般的等距抽样为例说明:假设抽样间距为k,总体单元数为N=nk。将总体的N个单元排列成k行n列,如下表所示。表中的每一行单元都是系统抽样的一个样本。返回系统抽样的总体单元12jn平均12rk1YrYkY2Y1kY2kYrkYkY21)1(kjY2)1(kjYrkjY)1(jkY1)1(knY2)1(knYrknY)1(nkY1y2yryky返回12jn群平均12rk层平均11Y2rYjY1knYrnY21YnY122Y12YkjYrjYjY221Y1rY1kY2kY1Y2YrYkYnY2YjY1Y令),,2,1;,,2,1()1(njkrYYrkjrj得下表:如果将每一行单元视为一个群,则总体由k个群组成每个群的大小都是n。系统抽样就是从中任选11Y1kY~一个单元,被选中单元所在行的所有单元就构成系统抽样的一个样本。返回§7.2等概率系统抽样估计量一、符号说明第r行第j列的单元指标值:rjY.,,2,1;,,2,1,)1(njkrYYrkjrj总体单元数:N样本单元数:n系统样本平均数:nirjryny11系统样本均值估计量:syy层均值:njyj,,2,1,总体方差:2S系统样本内方差:krnjrrjwsyyynkS1122)()1(1返回样本内相关系数:2)())((YyEYyYyErjrurjwsy层内方差:njkrjrjwstyyknS1122)()1(1同一系统内对层均值离差的相关系数:2)())((jrjurujrjwstyyEyyyyE二、估计量假设起始值为R,相应系统样本的平均值为:njrjnjrjrYnyny1111返回取系统样本的平均数作为总体均值的估计量:Ynjrjrsyynyy11性质1当N=nk时,有k个可能样本:YynkykyEkrnjrjkrrsy11111)(因此是无偏估计量。syy是有偏的。个可能样本所包含的单元数不全相等,因此syy但是当nkN时,采用直线等距抽样得到的k返回三、估计量方差的不同表示形式为方便起见,以后均假定nkN时,系统样本的平均数syy作为总体均值的估计是无偏的。它的方差按定义为:krrsysyYykYyEyV122)(1)()(下面给出方差的三种不同的表示形式。形式一用样本内方差2wsyS表示系统抽样估计量的方差。22)1(1)(wsysySNnkSNNyV返回式中,krnjrjYyNS1122)(11为总体方差;krnjrrjwsyyynkS1122)()1(1为样本内方差。如果从总体N中直接抽取样本量为n的简单随机样本,则总体均值的估计量的方差为:Yrsyy221)(SnfSNnnNyVsrs式中,为总体方差;n为样本量;f为抽样比。2S返回对于固定总体,总体方差是惟一确定的,因此,系统样本内的方差越大,系统抽样的精度越高.为了提高系统抽样的精度,总体单元的排列应尽可能增大样本内方差。2wsyS比较等距抽样方差和简单随机抽样方差,)(syyV)(srsyV)(1)()(22SSnnyVyVwsysysrs返回形式二系统抽样可看作一种特殊的整群抽样系统抽样估计量的方差可以用样本内相关系数表示:wsy])1(1)[1()(2wsysynNNnSyV式中,wsy为样本内相关系数。))(()1)(1(212YyYySNnrukrnujrjwsy系统样本内正相关越大,即系统内单元越相似,则估计量方差越大,等距抽样精度越差。返回形式三、系统抽样可看做一种特殊的分层抽样,系统抽样估计量的方差可以用层内方差表示:wstwstS和2])1(1)[()(2wstwstsynNnNnSyV式中,2wstS为层内方差;wst为同一系统样本内对层均值离差的相关系数。比较系统抽样方差与比例分配的分层随机)(syyV抽样方差)(styV,比例分配的分层随机抽样总体均值估计量的方差。返回)()(2NnNnSyVwststwststsynyVyV)1(1)()(因此当,0时wst系统抽样的精度低于分层随机抽样;,0时wst系统抽样的精度与各层抽取一个单元的分层随机抽样相同;,0时wst系统抽样的精度高于分层随机抽样。返回【例6.3】设某总个体N=30个单元,总体单元排列如下表,我们要产生一个样本量n=5为的系统样本,试与其他抽样方法的结果进行比较。下面通过一个模拟的例子说明系统抽样与其他抽样方法的联系,并对不同抽样方法的效果进行比较。返回N=30,k=6,n=45等距样本数据12345群平均群内方差1111213141513.002.52111213141513.002.53111213141513.002.54111213141513.002.55111213141513.002.56111213141513.002.5层平均11.0012.0013.0014.0015.0013.002.5层内方差0000002.07返回从上表可计算出:总体方差平均群(行)内方差平均层(列)内方差0)000(515.2)5.25.25.2(6107.22.2.2jrSSS下面我们按不同的抽样方法计算总体均值估计量的方差。返回(1)以行为群的整群抽样或以行为“系统样本”的系统抽样k=6,n=5.0)1(1)1(1)(2222rwsysySNnkSNNSNnkSNNyV返回(1)以行为群的整群抽样或以行为“系统样本”的系统抽样k=6,n=5.0)1(1)1(1)(2222rwsysySNnkSNNSNnkSNNyV返回(2)以列为群的整群抽样或以列为“系统样本”的系统抽样k=5,n=6.2)1(1)1(1)(2.222jwsysySNnkSNNSNnkSNNyV返回(3)以行为层的分层随机抽样(每层抽1个单元)L=6,n=6,f=6/30.333.011)(221rhLhhstSnfSWnfyV(4)以列为层的分层随机抽样(每层抽1个单元)L=5,n=5,f=5/30.011)(2.21jhLhhstSnfSWnfyV返回(5)简单随机抽样n=5,f=5/30.345.01)(2SnfyV(6)简单随机抽样n=6,f=6/30.276.01)(2SnfyV返回【评价】从上面的结果可以看出:(1)像整群抽样一样,系统抽样的估计精度几乎完全取决于其“系统样本”内差异与总体差异的对比。(2)系统抽样与其他抽样方法相比其优劣难以定论,可能好也可能差,这完全取决于其“系统样本”内差异与总体差异的对比,而这个对比则取决于系统抽样中的总体单元排列顺序。(3)另外三种方法的比较同样难定优劣,都需要具体情况具体分析。我们下面将上表中总体单元的顺序重新排列,来研究总体单元不同排列对系统抽样的影响。返回依某种随机化程序将总体单元重新排列12345群平均群内方差1111211121513.002.692111211121513.002.693111213141513.002.504111213141513.002.505131413141513.000.706131413141513.000.70层平均11.6712.6712.3313.3315.0013.00层内方差1.071.071.071.07002.07返回从上表可计算出:总体方差平均群(行)内方差平均层(列)内方差86.0)007.107.1(5196.1)7.07.27.2(6107.22.2.2jrSSS下面我们按不同的抽样方法计算总体均值估计量的方差。返回(1)以行为群的整群抽样或以行为“系统样本”的系统抽样k=6,n=5.43.0)1(1)1(1)(2222rwsysySNnkSNNSNnkSNNyV
本文标题:抽样调查-第7章系统抽样
链接地址:https://www.777doc.com/doc-418880 .html