您好,欢迎访问三七文档
当前位置:首页 > 建筑/环境 > 工程监理 > 权数问题处理方法和技术
抽样调查中的权数问题一.权数的功能定义:以某种数量形式、权衡被评价事物总体中诸因素相对重要程度的量值;抽样中的权数:在样本对总体推断中用以衡量各样本单元的变量值在总体中用大小的数值。作用:通过权数使样本还原到总体,即样本单元权数之和等于总体单元数。具体看,权数功能表现在两个方面:1.由样本还原总体。这是侧重数量,主要体现在不等概抽样设计中,样本单元入样概率不同,权数就不同;2.调整样本结构。由于抽样的随机性,样本结构与总体结构不一致,而结构又与目标量有关。权数的两个功能,有时可以达到一致,有时可能存在矛盾。一般而言,首先保证目标1,在目标1基础上实现目标2。一般,目标1通过计算样本单元设计权数实现;目标2通过对设计权数的事后分层调整体现。二.计算权数步骤设计权数表现为样本入样概率的倒数,概率抽样特征是每个样本单元入样概率是可以计算的。抽样框信息是计算权数的重要依据,能否计算出权数也是概率抽样和非概率抽样的根本区别。如采用二阶段抽样,设计权数121diiWPP计算出设计权数后,还需根据调查中出现的不同问题进行调整,否则无法实现样本单元权数之和等于总体规模。调整内容1,特殊因素调整,主要对调查实施中出现与设计不符情况的调整。以整群抽样为例:整群抽样设计群规模(调查小区)为30(M)户,若调查小区的住户,则应该计算调整系数,使实际样本回归到原设计。调整系数:30M*30/wM=调整内容2,无回答调整调整方法是计算无回答调整因子。若令:第j调查小区的无回答调整因子;:第j个调查小区的回答住户的权数和;:第j个调查小区的无回答住户的权数和;则第j调查小区的无回答调整因子为:jnrwjrwjnwjrjnjnrjr无回答调整的本质是将无回答样本单元的权数分解到回答单元身上。所以,调整应该在分类、分层基础上进行。设计最终权数由此实现目标1,样本单元权数之和等于总体规模。*dnr对于目标2,结构方面的权数调整,目的是使样本结构与总体结构一致。由于抽样的随机性,样本结构与总体结构可能出现不一致。如:调查教师平均工资,工资水平与职称有关。样本职称结构与总体不一致。基本做法,进行事后分层,利用总体辅助信息进行调整。多变量联合调整是经常遇到的问题。如教师工资不仅与职称有关,还与性别有关。按职称与按性别事后加权最终计算结果可能不同。这时权数调整将趋于复杂。调整方法很多,有许多文献进行过这方面的讨论,如迭代,校准(Calibration),广义回归等。以迭代为例:迭代调整的核心是使样本联合分布与总体联合分布一致。从辅助变量的边缘分布考虑,沿行列方向交替迭代,直至收敛。例中有两个进行加权调整的辅助变量A、B。其中A有4类,B有3类。原始加权的样本联合分布和总体联合分布如下表所示。表1基于辅助变量A和B的原始加权的样本联合分布表2基于辅助变量A和B的原始加权的总体联合分布现实中,表2格中数字可能未知,但有边缘分布即可。B1B2B3TotalA1204040100A250140310500A31005050200A43010070200Total2003304701000B1B2B3TotalA1804055175A260150340550A317060200430A455165125345Total3654157201500第一步是对所有行进行调整,即将A1行上所有单元乘以175/100,A2行上所有单元乘以550/500……,第二步是对所有列进行调整,即在第一步所得结果的基础上,将B1列上所有单元乘以365/356.75,将B2列上所有单元乘以415/504,将B3列上所有单元乘以720/639.25。表3迭代第一步表4迭代第二步B1B2B3TotalA135.8157.6478.84172.29A256.27126.81384.08567.16A3219.9788.52121.08429.57A452.95142.04136.00330.99Total365.00415.00720.001500.00B1B2B3TotalA135.0070.0070.00175.00A255.00154.00341.00550.00A3215.00107.50107.50430.00A451.75172.50120.75345.00Total356.75504.00639.251500.00调整过后,样本每行总量与总体相应行总量又不一致了,因此这样的迭代过程要一直重复直到行与列总量收敛于总体边际分布。最终的结果如下表5所示。表5最终迭代调整系数B1B2B3A11.811.452.02A21.080.871.21A32.201.762.45A41.831.452.04三.权数的影响与控制(一).权数的影响权数是双刃剑,进行调整有助于样本结构和总体结构一致,但权数之间差异过大有可能增大估计量方差。为了说明这点,有下面论证记:为样本的简单平均数;为样本的加权平均数;为每个样本单元的权数;为各样本单元权数的均值;为目标变量Y的方差;根据抽样的基本理论可知:对于简单随机抽样,在大样本假设下,均值的估计量的方差为:ysyiww2isiiiyynywyw,2()/Varyn对加权平均估计量而言,假设各样本单元的波动情况相近,即则:22=s2222()()()()()(/())siiiiiiiiiiiVaryVarwywwVarywwVarysy将带入得到•由设计效应定义:222222[()]()()()[][]()iissiiwwVaryDeffVarynwnw•由于2222()()()iiii•则有22222222222()[()][()]1()()()()11()()11iiisiiiiii(二).权数的控制权数调整中的控制方法:1.合并单元层在事后分层中,若某些单元层中样本单元过少(甚至没有样本落入),会造成权数极端值,这时可以与周边单元合并,使权数变动平缓;在多变量权数调整中,变量个数不能选择太多,否则可能造成无法收敛和权数极端值出现。2.权数截取A.对权数调整系数规定上限值(如不超过1.5),避免样本单元权数的大幅度变化;B.根据权数分布掐两头,截大补小;C.方法A、B有主观之嫌,另一类方法是通过计算,限制某些权数过大。我们知道,子总体方差22ˆ()iVarYw22ˆ()iiiVarwYw每个子总体方差在总方差中的比重为方差之比表现为权数之比。为控制权数差异,可以令这个比值小于一个常数,同时考虑到样本量n,即222222ˆ()ˆ()iiiiiiVarwYC为某一个常数,显然,C的选取很重要。如何确定C?实际中可以根据各单元(或子总体)权数,绘制的分布图,确定C的取值,C可以是上四分位数,也可以是90%位置。权数控制方法有不同学者发表论文讨论(如Elliott和little,2000)。22iiwcKwn2122()iinww四.案例分析——PISA项目PISA是国际经济合作与发展组织对学生能力国际评价项目的简称,它是针对OECD国家开展的一项调查,目的是希望了解在终身学习的背景下,年轻一代面向未来生活的知识和技能的准备程度,调查对象是15岁在校学生。此次中国PISA2012共调查了10个地区(吉林、宁夏、河北、云南、海南、江苏、四川、浙江、天津和北京房山区),总计抽取了515所学校共20627名学生参加了PISA2012的测试。•第一阶段抽取学校样本。•以学校中15岁学生的人数作为该学校的规模,按照PPS的抽样,对学校进行等距抽样。备注:抽样时对抽样框内的学校按照地理位置、办学性质和学段三个变量分层•第二阶段抽取学生样本。•在每所入样学校中采用简单随机抽样的方法抽取43名符合PISA年龄界定的15岁学生备注:15岁学生总数不足43人的入样学校中所有15岁学生全部参加测试抽样方案介绍——省为总体学校位置公办民办总计初中高中完中初中高中完中城市11.638.747.520.840.630.9530.32农村18.9117.042.752.960.631.3743.66县镇21.352.670.850.890.050.2026.02总计51.8928.4611.124.691.312.52100.00用样本(或总体)中各个层相应的学生数除以总学生数,得到了各层所占总体或样本的百分比,下文中的所有百分比均采用此方法计算。表6河北省的总体分布情况单位:%表7河北省的样本分布情况单位:%学校位置公办民办总计初中高中完中初中高中完中城市4.624.623.980.000.000.0013.21农村20.0018.030.730.780.000.1839.72县镇46.010.710.230.120.000.0047.06总计70.6323.364.930.900.000.18100.001.设计权数两阶段抽样设计,设计权数为两阶段入样概率连乘积。2.无回答调整此次调查由教育部统一组织,各入样学校积极配合,不存在无回答情况。3.无覆盖调整缺失部分在总体中所占到的比例之和为3.3%,将这3.3%按照与总体规模成比例的原则分配给入样的其他民办的学校,同时为保持整体之和为100%,公办学校也需要乘以相应的调整系数。表8是各层对应的无覆盖调整系数。表8无覆盖调整系数学校位置公办民办初中高中完中初中高中完中城市0.970.970.97农村0.970.970.973.405.81县镇0.970.970.975.69学校位置公办民办总计初中高中完中初中高中完中城市4.484.483.860.000.000.0012.82农村19.4017.490.712.650.001.0541.30县镇44.630.690.220.680.000.0046.22总计68.5122.664.783.330.001.05100.33表9无覆盖调整后样本分布情况单位:%调整前民办所占比例为1.18%,调整后民办所占比例为4.38%,总体民办所占比例为8.53%4.结构调整•第一步,选取辅助变量。根据前文中介绍的变量选择原则选取学校性质和学校位置作为辅助变量。•第二步,调整总体分布得到一个新的目标总体。表11为经过前两步调整后基于辅助变量学校位置和学校性质分层的河北省的总体分布情况:总体分布(百分比)公办民办总计城市27.892.4330.32农村38.704.9643.66县镇24.881.1426.02总计91.478.53100.00表10最初的目标总体单位:%将缺失的城市民办学校所占的2.43%按照与规模成比例的原则分配给其他民办学校,得到新的目标总体,如表11所示:表11调整后的目标总体单位:%总体分布(百分比)公办民办总计城市27.89027.89农村38.706.9445.64县镇24.881.5926.47总计91.478.53100.00总体分布(百分比)公办民办总计城市12.820.0012.82农村37.603.7041.30县镇45.540.6846.22总计95.954.38100.33表12无覆盖调整后的样本分布单位:%以新的目标总体作为参照调整权数,经过两次迭代后得到表13中的结果:表13迭代后的样本分布单位:%总体分布(百分比)公办民办总计城市27.890.0027.89农村38.007.6445.64县镇25.690.7826.47总计91.588.42100.0027.8945.6426.4791.478.535.权数控制为保证10个省的一致性,中国PISA2012主要采用权数截取的方法对权数的取值加以控制,当取值小于该类型学校中权数的0.05分位点时该权数为0.05分点上的权数,当取值大于该类型学校中权数的0.95分位点时该权数为0.95分点上的权数。具体如下式:0.050.050.950.9
本文标题:权数问题处理方法和技术
链接地址:https://www.777doc.com/doc-3149224 .html