您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 抽样调查教案-6系统抽样
njnu-liqicai122第6章系统抽样§6.1引言6.1.1定义定义6.1/6.2系统抽样(systematicsampling)又称为等距抽样、机械抽样。按照这种抽样方法,从总体中抽取第一个样本点(随机起点),然后按某种固定的顺序和规律依次抽取其余的样本点,最终构成样本。这种抽样被称为系统抽样是因为这种抽样的第一个样本点虽然随机,但其余样本点的抽取看起来好像不再随机,因而是系统的。“牵一发而动全身”。比如要对居民用户抽样,可按户口册每隔多少户抽一户;工厂为检查产品质量,在连续的生产线上每隔20分钟抽选一个或若干个样品进行检查;农业上为估计农作物产量或病虫危害,对一大片农田每隔一定距离抽取一块进行实际测量或调查,等等。本章只作简单方法介绍。更多内容参见文献2、文献3。6.1.2系统抽样的一般方法定义6.3直线等距抽样假设总体单元数为N,样本容量为n,N为n的整数倍。把总体单元排列成一直线。先计算出系统抽样间隔nNk,(当N不是n的整数倍时,可令k等于最接近的整数)。然后在第一阶段1~k个单元中随机抽取一个单元,假设为r,然后每隔k个单元抽取一个单元,即分别为:r+k,r+2k,…….,直至抽取了n个单元。抽取的样本编号为:r+(j-1)k(j=1,2,…,n)。12…r……kk+1k+2…k+r……2k2k+12k+2…2k+r……3k…………………例如某学院有200个学生,要抽取10个学生作为样本。首先计算nNk=20,然后在1~20中随机抽取一个数字,假设抽中排列中第3位的学生,则其它入样单元依次为23,43,63,83,103,123,143,163,183。定义6.4圆形等距抽样(Lahiri)这种方法主要适用于nNk不为整数时。因为当k不为整数,取其最接近的整数时,实际样本容量可能与n相差1,而且每个单元入样的概率不等,这时用直线等距抽样可能产生偏倚。kkkk+r2k+r(n-1)k+rrk(k为抽取间隔)njnu-liqicai123例:设总体N=10,其标志值分别为1210,,,YYY,总体均值为101110iYY。若要求样本容量为n=3,采用直线等距抽样,验证样本均值是否为总体均值的无偏估计?解:先计算间距nNk=10/3=3.33….,取k=3,在1~3中取一个随机起点,然后每隔3个单元抽取1个单元可得下列的可能样本:1i2i3i1Y4Y7Y10Y2Y5Y8Y3Y6Y9Y三个可能的系统抽样样本均值分别为:114710/4syyYYYY,2258/3syyYYY,3369/3syyYYY所有syEy=12313sysysyyyyY,因此样本均值不是总体均值的无偏估计。在这种情况下,样本均值将不等于总体均值,因而估计不是无偏的。为了使得样本均值是总体均值无偏估计,将N个总体单元排成首尾相接的一个圆。抽样间距k取最接近nN的整数,从1——N中随机抽取一个随机起点作为起始单元,然后每隔k个抽取一个,直到抽取n个为止。如果序号大于N时,将其减去N得到的在1——N中的号码入选。正是因为排列为圆形而非直线且随机起点在1~N中而非在1~[k](或[k]+1)中,导致了该抽样下的每个样本严格等概率地被抽中,因而估计是无偏的。若是圆形等距抽样,则在1~10中抽取一个随机起点,假设为7,然后每隔3个单元取一个,它们的序号是7、10、13。事实上是7Y、10Y、3Y入样。考虑到实际问题中,n通常比较大(大于等与50),多一个少一个并无关宏njnu-liqicai124旨,因此可以不必考虑N/n不是整数的影响,故通常我们都假定N是n的整数倍。3不等概率抽样法不等概率抽样中每个单元入样的概率不相等。最简单也是最常用的是PS系统抽样,即入样的概率i与单元规模大小iM成比例的系统抽样。令NiMM10表示所有单元规模大小总和,则0MMnii(包含概率,见不放回不等概率抽样)。在实际中,不等概率的实施常采用代码法。如下所示:先将单元规模iM(不失一般性,设其为整数)值累加,欲从总体中抽取容量为n的样本,取最接近nM0的整数k为抽样间距,从[1,k]中随机抽取一个整数r作为起点,则代码r,r+k,…,r+(n-1)k所对应的单元入样。例7.1设总体由10个行政村组成,N=10,每个行政村人数为iM,见表7.1。利用PS系统抽样抽取n=3个行政村样本。表7.1用PS系统抽样抽取行政村行政村编号人数iM累计人数抽中号码12345678910合计103432962468473205168146317187010353563187796110341239140715531870100*723*1346*0/623kMn,从1~623中抽取一整数,例如是100r,则100r,723rk,21346rk所对应的行政村入样,其序号分别为1、4、8。这种方法,当所有单元规模kMi时,每个单元不可能重复,是一种不重复抽样;当kMki2时(超过抽样间隔),第i个单元为必然被抽中单元,且有可能重复抽中;当kMi2,第i个单元为必然被重复抽中。实际中应尽量避免njnu-liqicai125这种重复抽中现象。一种简单的方法就是把这种大规模单元作为必然调查单元,不再列入抽样总体,另一种方法是将大规模单元划分为几个小规模单元。6.1.3总体单元排序1按无关标志排序,如调查学生视力,按学号排列,显然视力与学号没有关系2按有关标志排序调查身高时,按入校体检的身高顺序排列3介于以上两者之间6.1.4系统抽样的优缺点优点:系统抽样是实际中常用的一种抽样方法,1其简单易行,只要确定起点和间距,便于推广2便于利用已知信息,系统抽样的误差大小与总体单元的排列顺序有关,因此当对总体的结构有一定的认识了解,并有相关的标志可以利用时,可以运用已知的信息先对总体单元进行排列,再采用系统抽样,就能提高系统抽样的效率。但缺点也很明显:1方差复杂,难以估计2如果单元排列存在周期性,而抽样者缺乏对此了解,则很容易抽取出的样本代表性很差。例如,要调查70路每天的客流量,采用系统抽样,每周取一天,即每隔7天抽取一次。不管取了星期一到星期五,还是星期六到星期日中的哪天作为起点,样本代表性都很差。6.1.5系统抽样与整群抽样和分层抽样的关系系统抽样可以看作特殊的整群抽样和分层抽样表6-1系统抽样的总体单元123…j…n行平均123rk列平均1Y1kY…11kjY11knY2Y2kY…21kjY21knY3Y3kY…31kjY31knYrYrkY…rkjY1rknY1kYkY2…jkYnkY1Y2Y…jYnY1y2y3yryky见下表6-1,如果将每一行单元视为一个群,则总体由k个群组成,每个群规模大小都为n。系统抽样从11Y,21Y,…,1kY中任选一个,被选中的单元所在行的所有单元就构成系统抽样的样本。显然每个群都是可能的样本。因此系统抽样可以看成从k个群中随机抽取1个群的整群抽样。njnu-liqicai126同样将每一列视为一层,则总体由n个层组成,每个层大小都为k。系统抽样可以看作从每个层中抽取一个单元的分层抽样,但由于样本单元在各层位置相同,因此系统抽样不同与分层抽样。表6-2系统抽样总体单元重新编号12…j…n群平均12rk层平均11Y12Y…jY1nY121Y22Y…jY2nY21rY2rY…rjYrnY1kY2kY…kjYknY1Y2Y…jYnY1Y2YrYkYY§6.2等概率系统抽样估计量为讨论方便,今后总是设nkN。6.2.1符号说明第r行第j列单元指标rjY,对照表6-2换个排序方式有rjYrkjY1总体单元数N;样本单元数n总体方差221111knrjrjSYYN总体(群)均值11nrrjjYYn,1,2,,rk(每行均值)样本(群)均值11nrrjjyyn11nrjjYnrY,1,2,,rk系统样本均值11nsyrjrjyyYn,总体层均值11kjrjrYYk,1,2,,jn,或11kjrjryyk,1,2,,jn(每列njnu-liqicai127均值)6.2.2估计量假设起始点为r,则相应的系统样本的平均值为njrjryny11njrjYn11,(6.1)(群内普查)取系统样本平均值作为总体均值111111knknrjrjrjrjYYYNnk的估计量,即:syy=njrjryny11njrjYn11rY(6.2)(由于群内普查)定理6.1当nkN,有k个可能样本krsyykyE11Y,因此是无偏估计。syyV2YyEsykrrYyk121(6.9)(方差定义)定理6.2用系统样本(群)内方差2wsyS表示krnjrrjwsyyynkS112211为系统样本(群)内方差(类似整群抽样中的定义)因为系统抽样相当于抽取一个群的整群抽样,因此群内的单元差异大小,也即系统样本内的差异大小会直接影响系统抽样的效果,故定义了系统样本(群)内方差2wsyS,它反映了所有k个可能系统样本内的方差大小。因此可以想象,和整群抽样一样,系统样本内方差愈大,抽样效率愈高。注意此习惯叙述,2wsyS(大写)本该表示总体,由于群内普查,这里的特殊性在于所谓的“系统样本”实际是表6-2中行表示的总体群。syyV21SNN21wsySNnk(6.10)证明:21SNkrnjrjYy112211knrjrrrjyyyYkrnjrrjyy112krrYyn12(交叉项为0)krnjrrjyy112krrYyknk12njnu-liqicai128两边同除以nkN,根据方差定义和2wsyS定义,得到syyV21SNN21wsySNnk#如果直接用简单随机抽样,则srsyV2SNnnN,作差:srsyVsyyV221SSnnwsy,于是与简单抽样相当总体方差时,系统抽样即系统样本内方差等于当抽样优于系统抽样总体方差时,简单随机即系统样本内方差小于当优于简单随机抽样总体方差时,系统抽样即系统样本内方差大于当222222,,SSSSSSwsywsywsy对于固定总体,总体方差是唯一固定的,因此系统样本内方差越大,系统抽样精度越高。故为了提高系统抽样的精度,总体单元的排列应尽可能增大样本(群)内方差,使得群内基本单元样本差异比较大。定理6.3系统抽样可以看作特殊整群抽样,其方差可用样本(群)内相关系数表示syyVwsynNNnS1112其中系统样本(群)内相关系数(系统样本内各单位两两之间的相关系数)为2rjruwsyrjEyYyYEyYkrnujrurjYyYySNn12112(类似4.9)证明:总体单元数群内单元数总体群数样本群数总体均值估计量群内相关系数系统抽样整群抽样NNMnMkN1nsyy、ywsy、c由整群抽样yVcMSNMNMnf1111122,(P141,4.11)syyV2211111wsykNSnknkwsynNNnS1112。#由定理6.3看出,系统样本(群)内正相关性越大,即样本(群)内单元越相似,则估计量方差越大,系统抽样精度越差,这与定理6.2结论一致。定理6.4系统抽样可看成特殊的分层抽样,其方差可以用层内方差2wstS和wst表示njnu-liqicai129定义:总体层内方差
本文标题:抽样调查教案-6系统抽样
链接地址:https://www.777doc.com/doc-418940 .html