您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 市场调查的数据-处理
第十章处理Chapter10Processing(数据)处理就是把调查中收集到的数据转换为适合汇总制表和数据分析的形式。Processingtransformssurveyresponseobtainedduringcollectionintoaformthatissuitablefortabulationanddataanalysis数据收集完毕之后,估计之前对数据进行加工处理的所有活动:主要包括数据的编码、录入、审核、插补、离群值的检测和处理等。最后生成一个为进一步分析用的数据库。Coding,Datacapture,Editing,Imputation,Outlierdetectionandtreatment1.编码编码是给问题的每项答案赋予一个数值代码,以便于数据录入和作进一步处理的过程。Codingistheprocessofassigninganumericalvaluetoresponsestofacilitatedatacaptureandprocessingingeneral.编码具体方法很多,包括:问卷中已预先编码;在数据收集完毕之后进行手工编码;通过文本识别软件进行自动编码(即借助软件给一串字符赋予一个代码)。单选题的编码a.当变量的编码(含开放/半开放编码)在8以下时,变量范围为有效的编码范围,0—漏答,8-拒答,9-说不清b.当变量的编码(含开放/半开放编码)在8(包括8)以上时,变量范围为[有效的编码范围外,88-漏答,98-拒答,99-说不清举例A1.总体说来,您对现在的生活状况满意吗?是非常满意、比较满意、不太满意还是非常不满意呢?【单选】a1(或a1001)非常满意………………………………5比较满意………………………………4不太满意………………………………2非常不满意……………………………1一般【不读出】………………………3说不清【不读出】……………………9多选题的编码B1.您购买养老保险的原因是1使晚年生活有保障b1_1/b10012一种安全投资的保值方式b1_2/b10023包着试试看的态度购买b1_3/b10034亲朋好友推荐b1_4/b10045单位统一组织购买b1_5/b10056保险公司的宣传b1_6/b10067其他(请注明)b1_7/b1007多选题的编码B2.您购买养老保险的原因是(限选3项,按重要程度排序)[][][]b2_1b2_2b2_31使晚年生活有保障2一种安全投资的保值方式3包着试试看的态度购买4亲朋好友推荐5单位统一组织购买6保险公司的宣传7其他(请注明)2数据录入Datacapture数据录入是将回答转化成可机读的形式。Datacaptureisthetransformationofresponsesintoamachine-readableformat采用纸张式收集数据的方法时,数据录入是在数据收集完毕之后(通常是在对问卷进行一些“梳理”和初步审核之后)进行。采用计算机辅助数据收集方法时,数据录入是在数据收集的同时完成的。3.审核Editing审核是应用各种检查规则来辨别缺失、无效或不一致的录入,这些会导致数据记录的潜在错误。Editingistheapplicationofcheckstoidentifymissing,invalidorinconsistententriesthatpointtodatarecordsthatarepotentiallyinerror审核主要可分为三类:有效性审核一致性审核分布审核。有效性审核和一致性审核是对单张问卷进行的审核;分布审核则是对全部问卷或部分问卷的数据一起进行审核。通常,审核规则的确定基于以下几个方面:关于调查主题的专业知识;问卷和问题的结构;其它相关的调查或数据;统计理论(如离群值的检测方法)。数据收集完毕后,对审核失效,通常按下列方法进行处理:将其剔除;进行插补;设立特殊代码(一般可设为缺失值,用9表示)。有些时候,一条记录(或整份问卷)不符合多条审核规则的要求,或者不符合少数几条关键审核规则的要求,从而使得后续的处理失去意义。在这种情况下,通常可以将这些记录剔除,作为无回答处理,同时将赋予各被调查单元的权数进行调整。审核的指导方针审核的目标是:-更好地理解数据和数据处理过程;-检查问卷;-回访被调查者;-检出错填或漏填的数据;-删除无效记录;-分离需要插补的记录。审核的准则:审核不仅对整理数据有用,而且审核失效发生率不论是对当前调查的质量度量,还是对将来调查的改进都很有用,它能提供调查中有关数据处理的信息;不论什么时候,开始一项调查时,总是要对数据做一些假定,审核时可以检验这些假定的合理性。例如,可能很明显,有些领域的审核规则太严,或者有些类型的审核失效太频繁,这些情况表明审核规则可能不太合适(或问卷可能存在问题);审核应该分阶段进行;审核工作应由对本次调查的主题、问卷的设计和数据分析有专业知识、并且有类似调查经验的人员来进行;各阶段所进行的审核不应与其它阶段的审核相抵触;应该将审核的信息和审核工作对调查数据的影响通知数据的用户。4.插补Imputation插补就是解决在审核过程中辨别出来的数据缺失、无效与不一致等问题的过程。Imputationisaprocessusedtoresolveproblemsofmissing,invalidorinconsistentresponsesidentifiedduringediting插补是对审核过程中发现的所有缺失信息的记录进行补充或用合适的数值进行替代,确保得出内在一致的记录。插补方法可以归为两类—随机插补和确定性插补。确定性插补,对于特定的被调查的数据,可能的插补值只有一个。随机插补则含有随机因素,每次得出的插补值可能会不一样。几种确定性插补方法如下:-推理插补;-均值插补;-比(率)/回归插补;-序贯热平台插补;-序贯冷平台插补;-最近邻值插补。DeductiveMeanvaleRatio/regressionSequentialhot-deck/Sequentialcold-deckNearestneighbor每一种确定性的插补方法都对应着一种随机插补方法。插补定量数据时,用确定性的方法得出一个插补值,加上从某个适宜的分布或模型产出的一个残差作为最后的插补值,就成为随机插补。随机插补能更好地保持数据集的频数结构,保持比确定性插补方法更真实的变异性。1、推理插补Deductive推理插补:缺失的或不一致的数据能通过推断确定。通常,这种推理是根据问卷上其它回答项的模式来进行的。例如出,一个四项数值得和是100,其中两项分别是60和40,其余两项空着,那么这两项可推出一定是0。2、均值插补Meanvalue用均值插补,缺失或不一致的值可用插补类的均值来代替。例如,某问卷中的年龄缺失,可利用与缺失问卷类似的(在性别、文化程度、职业等类似的)回答者的平均年龄来代替。均值插补会得到较好的点估计,但由于在插补类均值这一点形成一个人为的“峰值”,从而破坏了分布状态和变量之间的关系。因此,如果用常规的抽样方差公式进行计算,就会低估最终的方差。均值插补通常在没有辅助信息可用或只有少量记录需要作插补处理时,才被采用。3、回归或比(率)插补Ratio/regression回归或比率插补是使用辅助信息及其它记录中的有效回答建立一个回归或比率模型,该模型表明了两个或多个变量之间的关系。例如,回归插补所使用的模型为:其中:yi是变量y的第i个单元值;xi是与变量y相关的变量x的第i个单元值;R是直线的斜率(即每变动一个单位,平均变动的数值);是模型的随机误差项,均值为0、方差iiiRxyi2比率的插补值按如下公式计算:式中:是变量y第i个记录的插补值;是插补类中记录的x值的均值;是插补类中记录的y值的均值。例如:收入=R*受教育年限+e受教育年限平均受教育年限平均收入收入iy~xyiyiixxyy~回归或比率估计产生的插补值比简单均值法产生的插补值更加稳定。这种方法常用于的商业调查中的定量变量,在这种调查中常可用前期数据来预测现期数据。4、热平台插补Sequentialhot-deck热平台插补是使用同一插补类中的供者记录的信息来代替一个相似的受者记录中缺失的或不一致数据。为了找到一个与受者记录相似的供者记录,必须先确定与需要进行插补处理的变量相关的变量,建立插补类。然后,插补类中通过所有审核的记录集就是供者记录的集合,这些记录用来插补受者中缺失的数据。热平台插补可以用来插补定量数据,也可以用来插补定性数据,但通常只用定性变量建立插补类。样本序号性别年龄婚姻状况收入汽车拥有1男青年未婚70无2男中老年已婚100有3女青年未婚50无4男中老年已婚70有5男青年未婚90有6女中老年丧偶30无7男中老年已婚------8女青年离异45有9男青年未婚---无10女中老年丧偶20---11男青年未婚50有12男中老年已婚------插补情况:受者收入汽车拥有供者770有4990510无61270有4在序贯热平台插补方法中,数据在插补类中是按某种顺序排列进行处理的,插补就是用这个序列需要插补数据前面某一个有效的回答单元的数据来代替缺失的数值。如果每次都使用相同的排序及选取方法,序贯热平台法是一种确定性的插补方法。供者插补方法(局限于热平台插补和最近邻插补)的优点是,因为相似的供者(如公司和家庭等)具有相似的特征,因此插补出的数值应该是相当准确的。使用供者插补可以保持数据的原始分布形式。5、冷平台插补Sequentialcold-deck冷平台插补与热平台插补类似,不同之处在于热平台插补使用当前调查的供者,而冷平台插补则使用其它资料中的供者。冷平台插补经常使用前期的调查或普查中的历史数据。6、最近邻插补Nearestneighbor最近邻插补,就像热平台插补,也是基于匹配变量选择一个供者记录。但是,用这种方法,目的不一定是非要找出一个和受者记录在匹配变量上完全相同的供者记录,而是要在插补类中按匹配变量找到和受者记录最接近的供者记录——即找到距离最近的值。“最近”是通过两个观测对象之间的距离来定义的,两个观测对象之间的距离是由辅助数据计算的。7、随机性插补Random任何用于定量数据的确定性插补都能通过加上随机残差变得具有非确定性。例如,我们可以用平均值加上随机残差来进行插补:其中,是y变量第i个记录的插补值;是插补类的均值;是从被调查者或某一分布的随机模型中抽取的残差。iieyy~iy~yie哪些值需要插补由于无回答或回答无效检出的审核失效的记录一般都需要进行插补。但是并不是所有审核失效的数据都需插补。对一个记录应尽可能限制需插补的项目。确定哪些字段需要插补应遵循以下三条准则:应该通过变更尽可能少的数据项(字段),以使每条记录都满足审核规则的要求;尽可能保持数据文档的原始频数结构;插补规则的确定,不是参考其它任何具体规定,而是由相应的审核规则导出。举例说,假设某份问卷中关于一位被调查者的背景资料是:受教育程度(大学),婚姻状况(已婚),性别(女),年龄(10岁)。显然,这条记录中,年龄-婚姻状况、年龄、受教育程度是不符合审核规则的。为了纠正审核失效,可以同时调整婚姻状况和受教育程度,也可以只对年龄作调整,一般倾向于采用后者。插补的准则Guidelinesforimputation虽然插补能改善最终数据的质量,但也要小心选择适当的插补方法。插补方法是否适当取决于调查的类型、目的、可用的辅助信息和错误的性质。审核和插补带来的风险是它们会破坏报告数据,产生符合预想模型的记录,而这种模型后来可能表明并不正确。离群值的检测和处理Identificationandtreatmentofoutliers离群值是一个观测值或一组观测值,他们看起来与数据集中的其他观测值不一样。离群值的检测可以看作审核的一种类型,主要是用来发现和确认可疑的记录。应该区分极值和影响值。如果一个记录值和抽样权数的组合对估计有较大的影响,我们就
本文标题:市场调查的数据-处理
链接地址:https://www.777doc.com/doc-7201473 .html