您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > 08第八章 数据处理
个人介绍董海军,湖南衡南县人,中南大学公共管理学院社会学系donghj34@sina.com第八章数据处理第一节资料检查与校订一、资料检查(一)检查问卷1.问卷的某一页或某几页漏填了2.问卷中的一个或多个问题没有填答(二)不符合条件情况1.问卷是由不符合要求的被访者回答的2.问卷记录的访问日期是在调查规定的截至日期以后3.问卷记录的答案有误4.确认访问员是否访问了指定的被访者5.确认访问员是否已送出礼品6.复查对象对访问员访问态度的评价(三)回访1.复查对象的原问卷编号2.复查的次数及时间记录3.确认访问员是否来访过二、资料校订(一)资料校订的定义为了提高问卷质量,对那些经过初步检查的问卷,还要进行校订工作,即从问卷中找出那些错误或不满意的答案,并对之进行相应的处理。(二)回访内容1.访问员没问某些问题,或没记录某些问题的答案2.访问员的记录字迹不清3.记录的答案摸棱两可或含义不清楚4.访问员在规定跳答的地方没跳,或在不该跳答的地方却跳了第二节资料的编码一、编码的一般规则(一)分类1.研究者可以在问卷设计时事先赋予被访者所可能回答的选项一个代码2.研究者也可以在访问结束后,再逐一就受访者的回答进行编码的工作。(二)注意要点1.在编码的过程中,除了要对被访者每一个回答的选项进行编码外,还要对问卷编号、访问员编号等相关内容依统一标准进行编码2.如果被访者回答内容本身就是一些数字资料,如被访者的年龄、收入等,在编码时应尽可能保留原来的面貌。3.对于不确定、不知道或其他这样的特殊选项,在编码设计时要使用固定的代码,最好在整份问卷中都完全一致。二、开放题的编码技术1.在事后编码正式开始前,研究者应该针对每一个需要事后编码的项目给出一份代码指南2.代码指南的编制要在设计问卷时就开始,在小组讨论、深入访谈和试调查过程中,研究者要有意识地摘要记录每个不同的答案。3.编码时,研究者在为编码员提供每一个编码项目代码指南的同时,还应该付上几张单页编码纸,将需要编码项目的名称和誊写答案的位置清楚地标在每页的顶端。4.对于某个分类含义不十分清楚的答案,究竟是将其和并到已有的类别中去,还是设立一个新代码呢?一般而言,有经验的编码员通常会选择后一种策略。四、特殊题型的编码(一)复选题的编码(二)排序题的编码(三)缺省值编码⑴您的年龄:_岁⑵您的性别:①男□②女□⑶您的文化程度:①小学以下□②初中□③高中或中专□④大专以上□⑷您每月的收入为多少?____元1-2__3_4_5-8___(一)单选题编码(二)多选题编码—0、1编码43、您期望当选的村干部具有哪些最重要的条件(限选三项)(任选题)①□能代表村民利益②□能完成上级交给的任务V4301__V4302__③□工作勤勤恳恳、尽心尽意④□有较强的组织管理能力V4303__V4304__⑤□有威信、得到村民信任⑥□能带领村民致富V4305__V4306__⑦□先公后私、全心全意为村民服务⑧□与广大村民人际关系好V4307__V4308__⑨□为人正直、品德优秀⑩□能和乡镇、县领导搞好关系V4309__V4310__⑾□与自己关系好⑿□与乡镇、县领导有交情、有关系V4311__V4312__⒀□实事求是、说真话V4313__有些调查要对无回答和不知道的答案进行编码.对无回答的编码常用的是0或空格.对不知道的编码常为9.或99,或999.(三)缺省值编码编码手册列问题号码变量名称内容说明1-6a1期刊年月编号91年6月第二个个案为9106027a2性别1.男2.女8-9a3年龄如实填写10a4学历1.小学以下2.中学3.高中4.中专5.大专6.大学7.硕士8博士9.其他11-13a5身高cm14-15a6职业1.工人2.农民3.党政机关公务员4.私营企业主5.离退休人员6,教师医生7.公安,司法,军人8.企业白领9专业技术人员10其他16a7婚姻状况1.未婚2离婚3.丧偶4.其他……………………第三节数据的录入与整理一、决定录入方式和软件人工输入、计算机辅助系统转换和光电输入。二、人工录入的注意事项(一)研究者必须统一规定需要录入的资料内容和数据的录入格式(二)要对数据录入人员进行培训(三)数据录入中的工作要点(三)数据录入中的工作要点1.设计一份进度表2.录入一开始就应为每个录入员提供一份有关录入内容和格式的手册3.要为每个录入员提供足够的空间摆放问卷4.每个录入人员在完成分配给自己的问卷后,在送回问卷的同时,还应提交相应的数据文件拷贝5.在人工录入中除了要设置一些防止差错的方法外,最后能进行双录三、数据清理(一)有效范围清理(二)一致性清理(三)数据质量抽查(一)有效范围清理1.对于问卷中的任何一个变量它的有效的编码值往往都有某种范围.当数据的数字超出了这一范围时,这个数字一定是错误的.这种错误可以发生在资料处理的每一个阶段.比如:错误回答,编码员错写,录入人员错误输入.★在电脑上检查有效范围的编码值.(二)逻辑一致性的清理逻辑一致性的清理是从另一角度来查找数据中所存在的问题.其基本思路是依据问卷中的问题的相互之间所存在的内在逻辑联系来检查前后数据之间的合理性.(三)数据质量抽查是指用随机抽样的方法抽取一部分个案,来估计和评价全部数据的质量.根据样本中的个案数目的多少,以及每份问卷中变量数和总字符数的多少,研究者往往抽取2%—5%,的个案进行质量抽查.比如:一项调查样本规模为1,000个个案,一份问卷的字符数(数据的个数)为200个,研究者从中随机抽取3%的个案,即30份进行对照检查,结果发现由2个字符输入错误,这样2÷(200×30)=≈0.03%13,000可知,数据差错率在0.03%左右.这也就是说在总共20万个数据中,大约有60个左右的差错.我们虽无法查出他们,但却知道他们占多大的比例,对我们的调查结果有多大程度的影响。四、缺失值的处理(一)缺失值的分析(二)缺失值的预防(三)缺失值的估计五、统计值基础概念在诺贝尔经济学获奖者中,三分之二以上的研究成果与统计和定量分析有关。因此,著名经济学家萨缪尔森在其经典的教科书——《经济学》第12版中特别提到:“在许多与经济学有关的学科中,统计学是特别重要的”。1-372010年5月27日23点03分,本人利用“百度”对互联网进行搜索,得到的结果是:包含“统计”这一词汇找到相关网页约100,000,000篇,用时0.086秒,包含“粮食”这一词汇的相关网页约100,000,000篇,用时0.009秒,前者与后者相当。美国杜邦公司的总经理理查德曾经指出“现代公司在许多方面是根据统计来行事的。”(转引自《马夸德特谈统计学家的重要作用》,《统计教育》1994年第3期)。美国前总统布什的年薪已经达到40万美元,在各国元首中名列首位,但根据美国《工作等级年鉴》一书的排名,总统一职并未进入最好工作之列。根据该书的统计,在美国,工作环境最好的工作是:统计学家。(转引自2002年3月7日《扬子晚报》)有个从未管过自己孩子的统计学家,在一个星期六下午妻子要外出买东西时,勉强答应照看一下4个年幼好动的孩子。当妻子回家时,他交给妻子一张纸条,上写:“擦眼泪11次;系鞋带15次;给每个孩子吹玩具气球各5次,每个气球的平均寿命10秒钟;警告孩子不要横穿马路26次;孩子坚持要穿过马路26次;我还想再过这样的星期六0次。”精确到小数点的爱情--统计学博士的求婚信.doc某三个班各选5名同学参加测试.他们的成绩分别如下:中文系:78,79,80,81.82X=80数学系:65,72,80,88,95X=80外语系:35,78,89,98,100X=80如果仅以集中量数来衡量,这三个队的水平一样高,但是很明显.这80分对中文系队的同学代表性最高,而对外语系的同学代表性最低.单变量统计分析集中量数离散量数定类:众数异众比率定序:中位数四分位差定距(定比):平均数全距与标准差统计分布:峰度偏度1.众数(m0)总体中出现次数最多的标志值是众数。(一)由未分组资料确定众数例:7名工人日产量(件)为4、5、6、6、6、7、8。则众数是6。(二)由单项数列确定众数按日产量分组(件)工人数(人)2015213022202310)(21mo件2.异众比率VR异众比率:(n-fm0)/n*100%3.中位数把某一标志值按大小顺序排列起来居于中间位置的那个数就是中位数。(一)由未分组资料确定中位数1、标志值的个数是奇数例:7名工人生产某种产品,日产量(件)分别为4、6、6、8、9、12、14。位于中间位置的第四名工人的日产量8件为中位数。2、标志值的个数是偶数.上例增加为8名工人,日产量为4、6、6、8、9、12、13、14。中位数位置在第四和第五名中间,取这两者的平均数为中位数。由单项数列确定中位数例:中位数为第40名和41名日产量的平均值按日产量分组(件)x工人数(人)f累计次数向上累计向下累计20101080221525702430555526258025合计80——)件24(22424由组距数列确定中位数1、计算公式)(dfslmeeeemm1m2fme下限公式)(dfsumeeeemm1m2fme上限公式2、举例年人均纯收入(千元)农户数(户)向上累计次数5以下2402405—64807206—7110018207—870025208—932028409以上1603000合计3000—)(71611100720230006千元em(1)计算累计次数(2)确定中位数组(6—7)(3)确定中位数数值1500-720=780(户)6X7178011001500230002fem•11001•780X4.四分位差IRQIRQ=Q3-Q1适应于对定序及定序以上变量的分析优点是可克服极值对资料分散程度度量的干扰。5.简单算术平均数计算公式:应用条件:资料未分组,各组出现的次数都是1。举例:5名学生的学习成绩分别为:75、91、64、53、82。则平均成绩为:分平均成绩73536558253649075nxx根据单项数列计算的计算公式:应用条件:单项式分组,各组次数不同。fxfffxfxfxfxxnn332211举例某车间20名工人加工某种零件资料:按日产量分组(件)x工人数(人)f日产总量xf14228154601681281758518118合计20319根据组距数列计算的应用条件:组距式分组,各组次数不同。举例:某车间200名工人日产量资料:按日产量分组(公斤)工人数f组中值x日产总量xf20—29102525030—397035245040—499045415050—5930551650合计200—84006.全距全距(R)公式:R=最大值—最小值优点:计算简便缺点:易受极端值的影响举例:5名学生的成绩为50、69、76、88、97则R=97-50=477.平均差(A.D)1、简单平均差公式:应用条件:资料未分组,各变量值出现的次数为1。举例:5名工人日产量资料nxxDA日产量(件)203221230241263合计8xx)(2352624232220x件)(6158DA件加权平均差公式:应用条件:资料经过分组,各组次数不同。举例:前例,ffxxDA按日产量分组(公斤)工人数f组中值x20—30102517030—40703549040—50904527050—603055390合计200—1320)(42x公斤fxx公斤)(662001320DA平均差的优缺点优点:平均差是根据全部数值计算的,受极端值影响较全距小。缺点:由于采取绝对值的方法消除离差的正负号,应用较少。8.方差标准差方差是实际值与期望值之差的平方的平均值nxxniis122)(nxi22)(标准差()1、简单标准差:方差的平方
本文标题:08第八章 数据处理
链接地址:https://www.777doc.com/doc-3258979 .html