您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 综合/其它 > 第九章 调查数据的整理与分析
第九章调查数据的整理与分析调查资料的接收和编辑调查资料的编码和录入调查数据的统计预处理统计数据显示调查数据分析方法介绍2020/1/291第一节调查数据整理的步骤•资料的接收、检查与校订调查资料的接收与编辑•事前编码、事后编码、数据录入、数据净化调查资料的编码与录入•缺失数据的处理、加权处理、原始数据或变量的转换调查数据的统计预处理•任务书的内容、选择统计方法的原则数据统计任务书的制定2020/1/292第二节调查资料的接收和编辑资料的接收资料的检查资料的校订2020/1/293与资料搜集工作相配合,掌握每天完成的问卷数和接收的问卷数在完成的问卷后面记录完成与接收的日期,以便必要时对前后接收的问卷进行比较多个调查项目实施时,必须清楚记录下交付实施的项目数、仍在实施的项目数、已经完成并返回的项目数一、资料的接收2020/1/294每一份返回的问卷都要记录一个唯一的、有顺序的识别号码,作为原始的文件在进行资料的核对、事后的编码、资料的录入时,必须按能识别的号码准确地记录是谁拿着哪些原始文件(问卷)所有参与资料整理工作的人员确保不能丢失文件一、资料的接收2020/1/295资料的检查一般是指对回收问卷的完整性和访问质量的检查。资料检查的目的是确定哪些问卷可以接受,哪些问卷必须作废资料检查要有规则。明确问卷完整到什么程度可以接受。对于每份问卷应逐页、逐题检查其内容的完整性、填写的规范性。二、资料的检查2020/1/296下列情况的问卷一般是不能接受的:明显不完整(如缺页)问卷回答不完全回答的模式不符合要求(如未按要求跳答)答案几乎没有变化问卷在规定的截止日期后收回问卷有不符合要求的被访者回答经过检查,可以将问卷分为三类可以接受的明显作废的需要待查的二、资料的检查2020/1/297检查不满意的答案字迹模糊的不一致的模棱两可的分叉错误的(跳答点选择错误)处理不满意的答案退回实施现场去获取较好的数据按缺失值处理(前提:有不满意答案的问卷数量很少,单份问卷中不满意答案的比例很小,不满意答案的变量不是关键变量)整个问卷作废(前提:不满意问卷比例很小,样本量很大,不满意问卷与满意问卷之间没有明显差别,不满意问卷中不满意答案的比例很大,关键变量的答案缺失)三、资料的校订2020/1/2982020/1/299第三节调查资料的编码和录入•事前编码•事后编码数据编码•即时录入(CATI、CAPI)•键盘录入数据录入编码的概念就是将问卷信息(调查问题和答案)转化为统一设计的计算机可识别的代码,以便于对其进行数据整理与分析编码的作用减少数据录入与分析的工作量将定性数据转化为定量数据减少误差编码的基本原则准确性:设计的代码要能准确有效地替代原始信息完整性:尽量不丢失信息,减少信息浪费有效性:易于操作、节约人力、物力标准化:便于整理、比较与分析2020/1/2910一、数据编码编码表是事先编码标准化的主要工具编码表的一般格式2020/1/29111、编码表变量序号变量名变量类型变量所占字节取值范围取值对应含义备注对应题号对应问题1V01数值型11-3或91-3为人数;9为缺失1家庭人数事前编码主要针对答案类别事先知道的问题,包括结构式问卷中的封闭题和数字型开放题。此类编码与问卷设计同时进行。封闭题的编码对单选题只需规定一个变量,取值为选项号Q1.请问您最近一年内买过DVD光盘吗?□1.买过2.没买过上题的定义变量为V01,数字型变量,所占字节为1,变量取值范围为1,2,9。1为买过,2为没买过,9为该题无回答。2020/1/29122、事前编码对多选题需规定多个变量(不限选项数量)方法一:将各个可能回答的答案选项都设为一个0-1指示变量,选择了该答案,此变量的值为1,否则为0Q2:请问您观看的DVD光盘的来源是什么?□□□□□□1.自购2.租借3.向朋友/同事/亲戚借4.别人送的5.单位的6.其他2020/1/29132、事前编码变量序号变量名变量类型变量所占字节取值范围取值对应含义备注对应题号对应问题234567V021V022V023V024V025V026数值型数值型数值型数值型数值型数值型1111110或10或10或10或10或10或1取值为1,表明该选项为主要来源,为0则不是全为0表示该题无回答2观看DVD光盘的主要来源对多选题需规定多个变量(限制选项数量)方法二:将变量定义为所选题号,变量值为选项号,变量排列顺序即为答案选择的顺序。Q2:请问您观看的DVD光盘的来源是什么?(限选三项)□□□1.自购2.租借3.向朋友/提示/亲戚借4.别人送的5.单位的6.其他2020/1/29142、事前编码变量序号变量名变量类型变量所占字节取值范围取值对应含义(i=1,2,3,4,5,6,)备注对应题号对应问题234V021V022V023数值型数值型数值型1110-60-60-6取值为i,表明i选项为主要来源,为0则其余选项都不是主要来源全为0表示该题无回答2观看DVD光盘的主要来源排序题的编码方法一:变量个数即为选项个数,按照选项排列顺序,分别定义各变量为对应选项所排秩序号,取值为秩序号。Q3.请您根据信任程度由高到低对下列广告排序□□□□□1.电视广告2.报纸广告3.广播公告4.杂志广告5.路牌广告2020/1/29152、事前编码变量序号变量名变量类型变量所占字节取值范围取值对应含义(i=1,2,3,4,5)备注对应题号对应问题89101112V031V032V033V034V035数值型数值型数值型数值型数值型111110-50-50-50-50-5取值为i,表明该广告信任程度排名为i,为0则表明对该广告的排名缺失全为0表示该题无回答3对各类广告的排序方法二:变量个数即要求排序项数,按照秩序号排列顺序,分别定义各变量为各秩序号对应的选项项数,取值为选项号。Q3.请您根据信任程度由高到低选出三个广告排序□□□1.电视广告2.报纸广告3.广播公告4.杂志广告5.路牌广告2020/1/29162、事前编码变量序号变量名变量类型变量所占字节取值范围取值对应含义(i=1,2,3,4,5)备注对应题号对应问题234V031V032V033数值型数值型数值型1110-50-50-5i为对应信任度的广告对应的选项号。0则表明对应信任度的广告缺失全为0表示该题无回答3对各类广告的排序事前编码主要针对答案类别事先无法确定的问题,包括非结构式问卷和结构式问卷中的文字型开放题。此类编码在调查完成后,根据被调查者的回答进行编码。若要对定性资料进行定量分析就需要进行编码。开放题的回答结果多种多样,一般要进行分类、定义变量,再进行编码。编码方法如同前述。2020/1/29173、事后编码对于CATI、CAPI以及网络调查,数据的搜集与数据的录入是同时进行的,无需再进行录入。其他调查则需进行数据录入。数据的录入可采用键盘、光学扫描、光标阅读器等方式。数据的录入可采用数据库形式,也可以采用其他一些专门的数据录入软件,如PE-EDIT或SPPS中的DATAENTRY。2020/1/2918二、数据录入数据的净化缺失数据的处理加权处理变量的转换2020/1/2919第四节调查数据的净化与预处理数据的净化主要是尽可能地处理错误的或不合理的数据,并进行一致性检查。一致性检查的主要内容包括变量的取值是否超出合理范围、有无逻辑错误以及有无极端值。数据净化通常可采用统计软件进行,如SPSS、SAS、BMDP等软件,可以很方便地寻找超出范围、有极端值、或逻辑上不一致的数据。2020/1/2920一、数据的净化超出合理范围的变量值及极端值的检查:对于非连续变量,通过编制频数分布表来检查;例如,假如收入的编码应该是从1-6,分别对应6种不同收入水平的被访者,0表示缺失数据。若频数表中的变量值列出现大于6的数据,该数据就是超出合理范围的数据。对于连续变量,通过计算均值、标准差、最大值、最小值等统计量来检查。对于超出合理范围的变量值及极端值,可以根据对于的被访者编码、变量编码、记录号码、列号码以及超出范围的异常值,就可以找到原始问卷和数据问卷,并进行必要的修改。2020/1/2921一、数据的净化逻辑上不一致的数据的检查:可以通过编制交叉表进行检查,从中很方便地可以发现逻辑上不合理的数据。例如,有一张表明“产品使用频度”与“熟悉程度”之间关系的交叉表中如下:显然,1列5行的数据就存在逻辑问题2020/1/2922一、数据的净化经常使用有时使用很少使用根本不使用非常熟悉51451812比较熟悉43324663有点熟悉44151听说过但完全不熟悉208从未听说过12022020/1/2923二、数据的预处理数据预处理缺失数据处理变量转换加权处理2020/1/2924(一)缺失数据的处理241用一个样本统计量的值代替缺失值,如使用整个样本均值或缺失者所在的子样均值代替缺失值。2用统计模型估计值代替缺失值。利用回归模型或判别分析模型来估计缺失值。将有缺失值的个案整个删除。可能导致小样本,导致严重偏差。将有缺失值的个案保留,仅在相应的分析中作必要的排除。对不同变量采用不同样本量可能不合适,但如果样本量大、缺失值少、变量之间不是高度相关的,此法亦妥当。实际中常被采用。34251、插补的意义对审核过程中辨别出来的数据缺失、无效、与不一致等问题进行解决的过程。插补应用场合与被调查者不能取得联系时,取得联系又由于经费、时间的限制时,客户自行处理有困难时,均可运用插补技术。262、插补的方法插补方法类别对于特定的被调查者,可能的插补值只有一个。对同一组数据进行多次插补,每次都是相同的值。对于特定的被调查者,可能的插补值是不确定的。对同一组数据进行多次插补,每次得出的值可能会不一样。确定性插补随机性插补确定性插补推理插补均值插补比率、回归插补序贯热平台插补最近邻值插补272、插补的方法每种确定性的插补方法都对应着一种随机插补方法。插补定量数据时,用确定性方法得出一个插补值,加上从某个适宜的分布或模型产出的一个残差作为最后的插补值,就成为随机插补。28(1)推理插补根据逻辑推理进行插补例1:如果一个四项数值的和为100,有两项分别为60与40,其余两项留空,则空着的两项一定为0例2:一个被调查者列出了三个孩子的名字,但“孩子数”空着,可以推出孩子数是329(2)均值插补运用插补类的均值对缺失或不一致的值进行插补例如,在一份住房调查的问卷中,公寓月租金的值缺失,则可利用同插补类中正确填报的租金的问卷计算其平均值,用这个平均值代替缺失值。例子用均值插补相当于对同一插补类中所有的被调查者使用相同的无回答权数进行调整;假定无回答是一致的,且无回答的被调查者与提供回答的被调查者具有相似的特征。假定30(2)均值插补均值插补可能会得到比较好的点估计,但由于在插补类均值这一点形成一个人为的“峰值”,从而破坏了分布形态和变量之间的关系。如果用常规的抽样方差公式进行计算,就会低估最终的方差。特点均值插补通常在没有辅助信息可用,或只有少量记录需要作插补时才最后被采用。应用31(3)回归或比率插补含义使用辅助信息及其他记录中的有效回答建立一个比率或回归模型,该模型表明了两个或多个变量之间的关系。模型iiiyRx插补公式iiyyxx%32(3)回归或比率插补例子一份关于公司人员的调查问卷,问卷中有两个问题是公司职员月工资总额和职工人数。但其中一份问卷工资总额缺失,而职工人数已正确填报,同时该公司所属行业也已知。这样就可以用全部问卷中属于这一行业的其他有效问卷求得平均每个职工的工资额,再根据这个比值(平均工资总额与平均职工人数之比率R)与已知的该公司的职工人数,确定该公司的月工资总额。iyix33(4)热平台插补热平台插补是使用同一插补类中的供者记录的信息来代替一个相似的受者记录中缺失的或不一致数据。为了找到一个与受者记录相似的供者记录,必须先确定与需要进行插补处理的变量相关的
本文标题:第九章 调查数据的整理与分析
链接地址:https://www.777doc.com/doc-3363020 .html