您好,欢迎访问三七文档
单一插补方法与多重插补方法的对比及分析0.缺失数据说明Little和Rubin根据缺失机制的不同,缺失数据可分为三大类:完全随机缺失数据(MCAR),随机缺失数据(MAR)以及非随机缺失数据(NMAR)。MCAR表示某些变量数据的缺失完全不依赖于变量或者回答者的真实情况,是严格意义上的随机缺失;MAR表示某些变量数据的缺失与回答者的真实情况是独立的;NMAR则表示变量数据的缺失与回答者的真实情况之间有相关的联系,并不是随机缺失的。实际情况中,缺失数据对数据分析造成较大的影响,主要表现在两个方面:数据统计的功效以及会带来有偏估计。Kim和Curry(1997)发现当有2%的数据缺失时,若采用列表删除的方法,将会带来18.3%全部信息的丢失。Quinten和Raaijmakers(1999)的研究表明10%~35%的数据缺失会带来35%~98%的信息丢失。可见,对缺失的数据不进行处理会给整个数据结构带来巨大的影响。故而,在数据分析中,对缺失数据的处理至关重要,同时该部分也是目前新兴学科——数据挖掘技术的重要组成部分。在处理缺失数据时,为了方便处理,一般假定缺失机制为MAR或者MCAR,这样可利用数理统计方法进行处理。缺失数据的处理方法可分为三大类:直接删除法、插补法、基于模型的预测方法。其中直接删除法最为便捷,同时也是最为粗糙的方法,该方法易造成真实信息的大量丢失,仅仅适用于极少量的数据缺失情况。相比而言,插补法和基于统计模型的预测方法比较常用,也较为有效。根据每个缺失值的替代值个数,可将插补方法分为单一插补和多重插补。1.单一插补与多重插补概念单一插补是指采用一定方式,对每个由于无回答造成的缺失值只构造一个合理的替代值,并将其插补到原缺失数据的位置上,替代后构造出一个完整的数据集。多重插补是由哈佛大学的Rubin教授在1977年首先提出的,该方法是从单一插补的基础上衍生而来的。指给每个缺失值都构造m个替代值(m1),从而产生了m个完全数据集,然后对每个完全数据集采用相同的数据分析方法进行处理,得到m个处理结果,然后综合这些处理结果,基于某种原则,得到最终的目标变量的估计。多重插补可分为三个阶段:(1)对目标变量的估计,(2)创建完全数据集,(3)目标变量的确定。其中最关键的阶段为目标变量的估计,该阶段需要确定估计缺失值的方法,即缺失值是以何种方法或者模型被估计出来,该阶段直接影响统计推断的有效性。理想的多重插补一般都按照以下方案进行:每个插补模型,对无回答Y[,m]的m次插补,实际就是从Y[,m]的后验预测分布中进行m次独立重复抽取,即从与数据和无回答机制相对应的贝叶斯模型中独立抽取参数和无回答数值。实践中在选择模型时应考虑三个重要问题:模型是显性的还是隐性的,是可忽略的还是不可忽略的,以及插补模型是否适当?显性模型在数理统计中经常使用的方法,比如正态线性回归、多元正态模型等。隐性模型被认为是潜在的隐含的“修补”特定数据结构的方法,比如非参数方法、最近距离法等。尽管在理论上显性模型被认为是理想的多重插补技术,但实践中经常采用的却是隐性模型,或是显性模型和隐性模型的结合。例如,Herzog和Rubin曾在美国普查局的热卡法的基础上,改进生成一种结合显性回归模型和隐性配对模型反复插补的方法。插补模型,无论是显性还是隐性,都可按照无回答机制分为可忽略的模型和不可忽略的模型。例如,X是数据中所有单元都回答的变量,Y有回答也有无回答。可忽略的(Ignorable)模型假设具有相同X值的回答者和无回答者的差异都是随机的。不可忽略的(Non-ignorable)模型则假设即使具有相同的X值,回答者和无回答者之间的Y值具有系统差异。在实际数据中,如果没有直接证据能验证无回答机制的假设,可以利用多个模型来研究其敏感性。插补模型,无论是显性还是隐性,可忽略或是不可忽略,必须是适当的模型,才可能得出有效推断。使用适当插补模型的本质在于,在利用模型进行重复插补时可以正确反映抽样的变异性,从而才能得出有效推论。例如在可忽略的无回答假设下,具有相同X值的回答者和无回答者的Y值差异都是随机的,但是从相同X值的Y回答值中随机抽取插补值,忽略了抽样变异性,即被抽取的相同X值的Y回答值与相同X值的总体Y值的随机差异性。要正确反映这种变异性,才能在既定无回答机制下得出多重插补的有效推断。利用近似贝叶斯靴环法(ABB)可以满足这一要求。在可忽略的无回答机制下,假设收集相同X值的n个单位的资料,其中有n[,r]个回答者,n[,m]=n-n[,r]个无回答者。ABB首先从n[,r]个回答值中有放回随机抽取n[,r]个值,作为Y的n[,r]个可能值,再从该n[,r]个可能值中有放回随机抽取n[,m]个无回答插补数据。这里从n[,r]个可能值而不是n[,r]个回答值中抽取插补值,至少在简单随机大样本条件下可以反映不同插补之间的变异性。ABB还可用于不可忽略机制的无回答的插补,比如在第一步不是简单随机抽取,而是按照Y的某函数(比如Y[2])独立抽取n[,r]个值。这样就可以生成偏态分布的无回答,比如无回答者的Y值大于相同X值的回答者的Y值。2.单一插补方法分类均值插补:分为无条件均值插补和有条件均值插补。无条件均值插补指用所有有回答单元的均值来代替缺失值,若在MCAR条件下,该方法为无偏估计。然而,由于插补值是所有有回答的均值,该数值过于集中,扭曲了变量的经验分布,总体方差和协方差被低估。为了得到更精确的数值,学者提出了有条件均值插补,分为分层均值插补、回归均值插补和BUCK方法。其中,分层均值插补:在插补之前,对变量按照某种规律进行分层,然后用每一层中的均值来代替本层中的缺失值。回归均值插补:在单调缺失数据模式下,利用回归的预测值来代替缺失值。BUCK方法:将回归插补推广到更一般的无回答数据模式,首先基于回答单元获得样本均值μ和协方差阵Σ,然后使用这些估计,对每一种无回答数据模式计算含有无回答的变量关于回答变量的最小二乘线性回归,在此基础上,用回归预测值代替无回答值。随机插补与条件均值插补方法类似,只不过在均值插补的基础上加上随机项,该方法通过增加缺失值的随机性,改善缺失值分布过于集中的缺陷。同样可分为两类:分层随机插补和随机回归插补。其中随机回归插补可表示为:𝑦̂𝑖𝑘=𝛼𝑘0,1,2⋯𝑘−1+∑𝛽𝑘𝑗12⋯𝑘−1𝑦𝑖𝑗+𝑒𝑖𝑘热卡插补该方法指从每一个缺失数据的估计分布中抽取插补值替代缺失值,使用回答单元的抽样分布作为未回答单元的抽取分布。从回答单元中产生插补值所采用的抽样方式决定了在热卡插补下有关总体参数估计量的性质,根据获得插补值的不同,热卡插补又可分为:随机抽样热卡插补、分层热卡插补、最近距离热卡插补和序贯热卡插补。冷卡插补冷卡插补表示从以前的调查数据中获取信息,如历史数据。同样该方法不能消除估计偏差。演绎插补该方法是一种辅助变量的插补方法,主要通过演绎辅助资料,查找插补值。插补的有效性很大程度上取决于辅助资料的充分与否以及演绎过程是否合理。3.多重插补方法分类单调缺失模式:当一个个体观测值的变量缺失则意味着后面的所有变量也缺失时,则变量的缺失可认为为单调缺失模式。回归预测法:倾向得分法:蒙特卡罗的马氏链法:4.两种方法的优缺点5.总结单一插补名词解释:后验概率:源于贝叶斯模型中的概念。后验概率是指在得到结果的信息后重新修正的概率,如贝叶斯公式中的,是执果寻因问题中的果.先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。它的本质是条件概率。P(A|B)=P(B|A)*P(A)/P(B)Pr(A)是A的先验概率或边缘概率。之所以称为先验是因为它不考虑任何B方面的因素。Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalizedconstant)。
本文标题:单一插补与多重插补
链接地址:https://www.777doc.com/doc-2594211 .html