您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 综合变量法在多目标分层抽样中的应用
综合变量法在多指标分层抽样中的应用摘要本文采用综合变量法对多目标总体进行分层抽样,并设计了T变量作为估计量,比较了综合变量法和简单随机抽样的优劣性。而后通过案例证明了上述结论。关键词:多指标抽样分层抽样主成分分析综合变量法引言抽样调查作为认识社会现象的工具已经得到了广泛应用,其在政治、经济、文化、军事、人口等领域已经成为了广泛使用的有效方法。并且绝大部分的抽样调查都是希望能在一次调查中得到多个结论,因此多目标抽样是普遍使用的方法,关于这方面的研究已经有了很多成果,但依然不能满足现实的需要,所以对多目标抽样进行研究是很有现实意义的。本文将在已有理论的基础上,试图对多目标的分层抽样问题进行研究,采用主成分方法处理辅助信息,而后用综合变量法分层,研究该方法的性质。一、模型介绍将X进行主成分变换后,计算求得综合变量*F,即KKFFFF2211*其中K,,,21为主成分KFFF,,,21的贡献率。以*F作为分层标志,进行综合变量法分层抽样。这种变换将原来的多指标转换为了单指标,而后就可以用单指标的方法进行分层抽样。层数的确定可以按照如下准则:11221221122**1****)ˆ()ˆ()ˆ(hhFhLhhFhLhhFhLstLstLstSWSWSWFVFVFV至于分层的界限*hF,只要满足下面关系:)1(2)1(21*22*****)()(hFhFhhhFhFhhSSFSSF就可以使)(*stfV达到最小。现实中仍然采用戴伦纽斯和霍奇斯(DaleniusandHodges)提出的快速近似法计算。抽样方法若总的样本量n固定,如何把这n个样本进行分配到各层,在各层的分配取决于层的规模、层内的方差和抽样的费用。这里只讨论最优分配,至于比例分配和内曼分配是最优分配的特例。最优分配为),,2,1(1LhcSNcSNnnLhhxhhhxhhh确定了在各层的样本量后,在各层的抽样方式这里采用简单随机抽样。分层抽样中,样本量n的确定不仅取决于精度要求和费用的限制,而且取决于如何分层和样本在各层的分配方式。这里精度要求的上限设定为V,第h层的每单元抽样费用为hc,采用最优分配方式下,样本量n计算公式如下:LhFhhLhLhhFhhhFhhSWNVcSWcSWn12111)()(二、多目标分层抽样估计量设计目标变量Y的均值估计量为sty,其简单估计量为Lhhhstywy1sty是Y的无偏估计量,即YyEst)(该估计量的方差为LhhhstyVwyV12)()(由于多个研究变量的量纲并不完全相同,并且Y的均值估计量的方差不止一个,所以不同方法求得的均值估计量的方差协方差矩阵无法进行比较,也就无法对各种抽样设计方法进行评价和进一步研究。因此这里提出了一种解决上述问题的方法,为消除量纲影响,将均值估计量的方差比上均值估计量的平方,至于多目标变量无法比较的问题,可以将消除了量纲的方差加总求和,由此定义一个新的变量。定义:在多目标抽样中,目标变量iY),,2,1(Ki之间量纲不同,其样本均值的方差)(iyV无法直接比较,iiyyV)(为iy的变异系数,将其平方求和得到TKiiiyyVT12)(T值是消除了量纲影响的方差之和,它将作为多目标抽样的精度指标。显然,T值的大小就可以说明抽样设计效果的好坏,T值越小,表明抽样精度越高,反之,抽样精度越低。在分层抽样中,T的表达式为:KiististyyVT12)(根据前面的假设条件和有关主成分分析的性质,基于主成分综合的方法,求得的T有如下性质:KiististKiististKiististffVxxVyyVT121212)()()(证明:KiististyyVT12)(也可以用矩阵的迹的形式来表示,即为)]()[(1stTststyVyytrTaxyststxay22stTststTststxaxxayy)()()(2VxVayVstst当和)(V极小,可以忽略时)()()()(stTstststTststxVxxyVyy已知FUXT有stTstfUxUfVUxVstTst)()(UfVffUxVxxstTststTstTstst)()()()(11])()([)]()[(11UfVffUtrxVxxtrstTststTstTstst所以KiististKiististKiististffVxxVyyVT121212)()()(证毕为了方便,下面对KiististffVT12)(进行讨论综合变量法根据上面的介绍,综合变量法是将综合变量*F排序后,进行分层抽样,分层的结果是保证了)(*stfV最小。即PiististfVfV1*2*)()((3.3)是最小的。在满足什么条件时,可以采用综合变量法抽样,而使T值达到最小。可以看出当istf与i成反比例关系时,采用综合变量法抽样会更优。证明:对3.2式进行整理,有KiistiiistKiististfVfffVT1*22212)(1)((3.4)对比3.3式与3.4式,3.4式是在3.3式的基础上加了权重。①当istf与i成反比例关系,即iistAf时,T值就是综合变量*F的方差的倍数,可以表示为)(*2stfVAT,显见,istf与i成反比例关系时,采用综合变量法抽样最优。②当istf与i不成反比例关系时,即iiistAfiA),,2,1(Ki不全相等,此时KiistiifVAT1*22)(,若采用综合变量法进行分层,使得)(*stfV达到最小,不能保证T值是最小的。综上,采用综合变量法抽样的条件是istf与i成反比例关系证毕其中0c,所以)()(fVfVst,从而证明了多指标情况下无论是超空间区域法还是综合变量法分层抽样的方差都是小于等于简单随机抽样的方差。三、与简单分层抽样比较这里定义简单分层抽样为:在多指标抽样中,只用一个指标作为抽样标志的分层抽样方法。这里我们假定使用1F作为分层标志,将样本分为1L个层,其他指标的证明同理。下面将分别将此方法与超空间区域法和综合变量法分层抽样进行比较,比较他们在何种条件下,他们的T值更小。上一节已经说明,用1F进行分层得到的F均值估计量的分层抽样方差为)(stfV。其设计效应为1)()(fVfVdeffst简称为d。用综合变量法进行分层,即用*F作为分层标志,将样本分为1L层。这种方法的设计效应为10)()(fVfVdeffst简称为0d。现在分别采用简单分层抽样和综合变量法抽样,之后得到的T值分别用T和0T表示,即KiKiistiiististffVdffVT1122)()(KiKiistiiististffVdffVT1120200)()(已知采用这两种抽样方法计算的估计量istf都是iF的无偏估计量,即iistFfE)(,因此,假设上式的istf相等,而后就可以比较T和0T的大小。T和0T作差有KiistiiiffVddTT1200)()(可以看出差值的大小主要取决于id与0id的大小,而)1,,1,1,(1ddi,所以上式分解为:KiistiistKiistiiistffVdffVddffVddffVddTT201101120110110)()1()()()()()()(其中,0011dd而010id,所以0TT的大小并不是固定的,这要取决于每一主成分变量的设计效应,以及设计效应对应的权重(方差与均值之比)。根据经验,在综合变量法中,欲使*F的分层抽样方差最小,被赋予较大权重的iF应该得到较小的设计效应。所以,011dd与0iidd的大小应该差不多,这样就会有01120)(ddddKiii由此判断,00TT会是更为常见的状态。通常情况下,综合变量法还是优于简单分层抽样的,但是这个结论并不是确定的,也会有特殊情况出现。综上,综合变量法和简单分层比较来看,在费用方面,两种方法没有什么区别,它们都是将总体划分成了1L层,而后在层中进行简单随机抽样。在精度方面,综合变量法可能会有更大的优势,通常情况下,综合变量法会比简单分层抽样更优。四、案例分析本文研究的两种方法都是基于主成分综合的,因此,首先将原数据进行主成分变换,原变量4321,,,XXXX主成分变换为4321,,,FFFF,表达式如下:4443432421414434333232131342432322212124143132121111XaXaXaXaFXaXaXaXaFXaXaXaXaFXaXaXaXaF(5-1)使用SPSS19.0对数据进行相关性分析,从表5.1可以看出指标之间存在着一定的相关性,需要通过主成分分析法将相关的指标转换为相互独立的指标,主成分分析得到的表5.2解释的总方差表,这里保留了所有主成分,四个主成分的方差贡献率分别为38.849%、24.984%、22.802%和13.366%,由表5.3成分矩阵表可以得到结果如下:43214432134321243211029.0162.0487.052.0723.0475.0343.0213.0577.0789.0186.0103.0379.0355.0781.0821.0XXXXFXXXXFXXXXFXXXXF(5-2)由此便得到了变换之后的主成分数据。表5.1相关系数表食品衣着居住交通和通信相关食品1.000.442.187.113衣着.4421.000.046.142居住.187.0461.000.019交通和通信.113.142.0191.000Sig.(单侧)食品.000.000.000衣着.000.039.000居住.000.039.232交通和通信.000.000.232表5.2解释的总方差表成份初始特征值提取平方和载入合计方差的%累积%合计方差的%累积%11.55438.84938.8491.55438.84938.8492.99924.98463.833.99924.98463.8333.91222.80286.634.91222.80286.6344.53513.366100.000.53513.366100.000提取方法:主成份分析表5.3成份矩阵表成份1234食品.821.103-.213-.520衣着.781-.186-.343.487居住.355.789.475.162交通和通信.379-.577.723-.029提取方法:主成份分析表5.4超空间区域法均值及比较总体均值样本均值相对误差(%)标准差食品)(1X6997.346997.770.0062651.37衣着)(2X2206.242148.96-2.5961411.33居住)(3X1980.951920.08-3.0733513.61交通和通信)(4X2329.391852.00-20.4941753.25综合变量法也是基于主成分分析的抽样设计方法,由式5-2和表5.2中的方差贡献率可以求出综合变量*F的值,而后以*F作为分层标志,为方便与超空间区域法进行对比,在该方法下,将总体分为16层,临界值同样采用快速近似法确定,每一层的个数为)15,,1(90iNi,10016N,按照10%的抽样比进行抽样后,各层的样本数分别为)15,,1(9ini,1016n,运用SPSS19.0里的复杂抽样功能进行一次抽样后有表5.5所示结论。表5.5综合变量法均值及比较总体均值样本均值相对误差(%)标准差食品)(1X6997.347004.460.1022897.92衣着)(2X2206.242107.55-4.4731693.09居住)(3X1980.951752.32-11.54
本文标题:综合变量法在多目标分层抽样中的应用
链接地址:https://www.777doc.com/doc-2139958 .html