您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 利用分析调查问卷数据
调查问卷的整理与录入一、问卷的整理二、问卷的录入三、问卷的分析问卷整理程序审核编码数据处理图表制作录入分组第一节问卷的整理程序审核分为两个层面实地审核一般方式:复查和回访资料审核主要内容包括:•资料的时效性—准•资料的完整性—缺•资料的正确性—误1、审核调查资料审核的主要内容(1)完备性(2)完整性(3)正确性(4)时效性(5)真伪性1、完备性即检查收回的问卷或调查表的份数是否齐全,是否达到了调查方案设计的样本量的要求。如果调查问卷或调查表份数不够,应查明原因,采取补救措施,如重新拜访或更换调查对象。2、完整性即检查审核问卷或调查表填答的项目是否完整。不完整的答卷有三种情形:(1)大面积的无回答,或者相当多的问题无回答,对此应作废卷处理;(2)个别问题无回答,应视为有效调查问卷,所留空白待后续工作采取补救措施,或将它直接归入“暂未决定”、“其他答案”的类别中;(3)有相当多的调查问卷对同一问题无回答,仍作为有效调查问卷,对此项提问可作删除处理。3、准确性即检查问卷或调查表中的项目是否存在填答错误,一般也有三种情形:(1)逻辑性错误,表现为某些答案明显地不符合事实,或者前后不一致。对这类错误能够用电话核实的可进行更正,无法核实的按“不详值”对待;(2)答非所问的答案,一旦发现应通过电话询问进行纠正,或按“不详值”对待;(3)乏兴回答的错误,如所有问题都选择同一固定编号答案,或者一笔带过若干个问题。如这种乏兴回答仅属个别问卷,应彻底抛弃,如这类回答的问卷有一定的数目,且集中出现在同一类问题群上,应把这些问卷作为一个独立的子样本看待,在资料分析时给予适当的注意。4、时效性主要是对调查问卷或调查表的访问时间、有关数据的时间属性进行检查,以评价调查数据是否符合时效性的要求。一般地,访问员应在规定的时间内完成所有样本单位的访问,如延迟了访问,则应作出不同情况的处理:如延迟访问对调查结果没有什么影响,则问卷仍是合格的;若延迟访问影响到数据的时间属性不一致时,则应废弃这样的调查表或问卷。5、真伪性主要是对调查表或问卷的真实性进行检验,评价访问员是否存在伪造问卷或调查表的行为。一般采用抽样检查的方法进行核实,即从回收的全部问卷或调查表中随机抽取一部分,然后用电话或派人上门与被调查者联系,核实访问员是否到访,以及访问的时间、地点等。如果发现问卷或调查表是伪造的,应作废弃处理,并要派员重访。调查资料审核的主要方法经验判断法例如:如果被调查者年龄填写为132岁,根据经验判断,其填写肯定有误。逻辑检查法例如:某消费者在前面说“不知道”某调味品,后面却说“每天都在使用”,显然前后矛盾。计算审核法例如:在家庭收支结构中,家庭总收入远小于总支出和储蓄之和,那肯定有错。案例错误的数据不如没有数据国内一家知名的电视机生产企业,2004年初设立了20多人的市场研究部门,开展了同样的调研问卷,完全相同结构的抽样,两组数据结论却差异巨大。正是因为这次调查,部门被注销、人员被全部裁减。•问题:列举您会选择的电视机品牌?•其中一组的结论是:有15%的消费者选择本企业的电视机;另一组的得出的结论却是:36%的消费者表示本企业的产品将成为其购买的首选。巨大的差异让公司高层非常恼火,为什么完全相同的调查抽样,会有如此矛盾的结果呢?公司决定聘请专业的调研公司来进行调研诊断,找出问题的真相。普瑞辛格的执行小组受聘和参与调查执行的访问员进行交流,并很快提交了简短的诊断结论:第二组在进行调查执行过程中存在误导行为。调研期间,第二组的成员佩带了公司统一发放的领带,而在领带上有本公司的标志,其标志足以让被访问者猜测出调研的主办方;其次,第二组在调查过程中,把选项的记录板(无提示问题)向被访问者出示,而本企业的名字处在侯选题板的第一位。以上两个细节,向被访问者泄露了调研的主办方信息,影响了消费者的客观选择。这家企业的老总训斥调研部门的主管:“如果按照你的数据,我要增加一倍的生产计划,最后的损失恐怕不止千万。”问题:本案例对你有何启示?分析提示:市场调查是直接指导营销实践的大事,对错是非可以得到市场验证,只是人们往往忽视了市场调查本身带来的风险。一句“错误的数据不如没有数据”,包含了众多中国企业家对数据的恐慌和无奈。缺失数据的处理1)无效问卷2)不满意的问卷3)不满意问卷的处理方法1)无效问卷(1)回答不完全(2)调查对象不符合要求(3)答案选择高度一致(4)截止日期后收回的问卷2)不满意的问卷(1)模糊不清(2)前后不一致或有明显错误的(3)模棱两可(4)不符合作答要求3)不满意问卷的处理方法(1)重新调查(2)填充①找一个中间值代替②用一个逻辑答案代替③删除处理(3)空缺文字资料分组2、分组数字资料一、文字资料的分类对于调研问卷中的开放式问题,很多回答都是文字资料,对于这些文字资料我们需要根据其资料的性质、内容或特征把相异的资料挑出来,把相同或相近的资料归为一类,这样才能进行后期的数据分析。(1)穷举原则。穷举即不遗漏,就是说分类时每一条资料都要有归属。分类的结果必须将所有的总类全部包括进去,没有遗漏。(2)相斥原则。相斥即不重复,就是说在一种分组中每一条资料只能归属为一类中,而不能既归于这类又归于那类,以至于在不同类别中重复出现。即类与类要相互排斥。对开放式问题的答案整理程序:1、集中所有同一个开放式问题的全部文字性答案,通过阅读、思考和分析,把握被调查者的思想认识。2、将被调查者的全部文字性答案,按照其思想认识不同归纳为若干类型,并计算各种类型出现的频数后,制成全部答案分布表。3、对全部答案分布表中的答案进行挑选归并,确定可以接受的分组数。一般来说,在符合调研项目的前提下,保留频数多的答案,然后把频数很少的答案尽可能归并成含义相近的几组,应根据调研的目的和答案类型的多少而确定,一般来说应控制在10组之内。4、为确定的分组,选择正式的描述词汇或短语。不同组别的描述词汇或短语应体现质的差别,力求中肯、精炼、概括。5、根据分类归纳的结果,制成正式的答案分布表。例:在一项关于居民空调购买行为的调研问卷中,设置了“你对静音空调这个产品概念有何看法?”的开放式问项,通过对被调查者的回答分类归纳如下:被调查者对“静音空调”的看法分布看法分类答案人数比重(%)符合环保要求32518.25符合发展趋势28614.30符合消费需求31615.8希望尽快推出1989.9有可能实现31215.6不可能实现35017.5难以评价21310.65合计2000100.00二、数字资料的分组对于问卷中的数字资料大多数在设计问卷时已经分好组了,如问卷中的封闭式问题。但是,开放式问题如“您购买的小灵通价格是()元”,那么,我们在问卷调查完之后就还要对数字资料进行分组。数字资料有在问卷设计的时候就分组的,也有调查结束后再分组的,不管怎样,数字资料分组的原理都是一样的,我们都需要按照一定的步骤进行。数字资料分组的步骤1、分组标志的选择数据资料分组的关键是选择分组标志。分组标志是说明总体特征的名称,可以分为品质标志和数量标志。定性:品质标志表示事物的质的特征,是不能用数值直接表示的属性,如人的性别、民族等。定量:数量标志表示事物的量的特征,是可以用数值直接表示的,如人的年龄、收入等。分组标志就是分组的依据或标准,分组标志一经选定,各组的性质界限和数量界限也就确定了。2、组数和组距的确定(1)组数和组距如何确定。当全距确定时,组距大则组数小,组距小则组数多。如果分组过多,组距必小,则不易观察数列分布的规律性。如果分组过少,组距必大,会使组中值缺乏代表性。各组组中值应对本组有良好的代表性。组距的确定一般可以请专家或以经验法确定。组数一般常分为10~15组。调查的数据资料最大值减去最小值,就是全距。组距=全距÷组数确定组距应遵循下列3个原则:①必须把原始资料全部变量值都包括在所分组内,不能有任何遗漏;②组距尽可能取整数,不要小数;③各组的组距尽可能相等,少用不等距分组,因为等距分组便于后阶段的分析。按照经验确定组数观测值数目组数少于504~750~2007~9200~5009~10500~100010~111000~500011~135000~5000013~17多于5000017~20(2)组距应否相等。为了便于分析研究原则上次数分布中各组的组距应相等,即尽量编制等距数列。(3)组距的位置如何确定。为便于分析研究,一般采用整齐而惯用的数字为组限。特别是习惯于采用5或10的倍数表示组限。每组的最大值为组的上限,每组的最小值为组的下限。划分组限时,各组频数的计量不能重复,每一总体单位只能计数1次。恰好重叠在组限上的变量值一般归入下限的1组,即遵循“上限不在内”原则。•(4)组限如何表示。组限的表示应以变量值本身的性质而定。如果是间断数列,且数值变动范围小,则可以把每个变量值为一组,叫单项式分组,见表5-1。如果是连续数列,且数值变动范围较大,可将变量值划分为几个区间,每个区间为一组,叫组距式分组,见表5-2。5-15-2第二节基于epidata的问卷录入1、将word格式中的问卷拷贝到epidata中,注意格式的调整;2、有一些题目(尤其是多选题)无法确定格式,或者不便于后面分析的,就拆分成单选题,如第9题;2、在每一个选项后面输入“字段编辑器”,选择本题答案的格式,如数字、文本、日期、其他;1、生成rec文件;2、建立chk文件:chk文件是对每一个输入的答案进行限制,防止在纸质版转换为电子版时出现常识性的错误。开始数据录入注意事项:1、如果前面有chk文件,则有一些答案填写的限制,比如填写的数字范围的限制、是否需要跳转、是否是必填项等等2、可以录入多份问卷,当一份录完以后,保存,就可以直接录入第二份问卷,每一份问卷会在左下角显示。其他功能1、纵向追加记录/横向合并功能2、数据一致性检验:双录入时Epdidata教程第三节问卷资料的分析(一)基础数据分析•通过频数分布、表列、图表对整理后的调查资料进行一些基本的数据分析,使之能清晰明了地反映调查总体属性的分布态势和相互关系,有助于后续分析和预测•1.频数分布调查有关单个变量的信息了解对一个变量选择不同取值的调查对象的数量不同取值的出现频率以百分比形式展现3.您通常喝什么类型的酒?白酒【】葡萄酒【】香槟酒【】啤酒【】其他【】通常饮用酒类的频数分度变量值标签变量值频数百分比有效百分比累计百分比白酒11020.020.820.8葡萄酒2816.016.737.5香槟酒324.04.241.7啤酒42754.056.297.9其他512.02.1100缺省924.0缺省合计50100100集中趋势指标差异性指标分布形态指标•①集中趋势指标–用于描述分布的中心–包括:均值(平均数)、中位数、众数均值即平均数,是最常用的统计量数据应具有一定的集中趋势,大部分答案应分布在均值附近算术平均:加权平均:均值nXXnii/1niiniiinXnX11/出现最频繁的数值,表示分布中的高峰众数所有数据按升序或降序排列后位置居中的数值若样本数为偶数,则中位数为居中的两个数值的均值中位数是定序数据的集中趋势指标中位数中位数比平均数更能反映大众的真实情况【小笑话】如果比尔·盖茨和十几个穷光蛋在一个房间里,这个房间里十几个人的平均收入就都超过亿元。这是因为比尔·盖茨和穷光蛋的收入差距过大,导致平均数值缺乏实际参考意义。但如果用中位数来衡量,中位数为0,就知道这房间里起码有一半人是穷光蛋②差异性指标用于描述样本值偏离分布中心的趋势包括:极差(全距)、方差或标准差、变异系数反映数据的分散程度,即样本最大值与最小值之差可结合中位数评价样本值的代表性,受奇异值影响公式:全距=Xmax-Xmin极差离差:样本值和均值之差方差:离均差平方的均值标准差:方差的平方根方差或标准差越大,说明数据点分布越分散,数据间差异越大方差和标准差nXXnii/)(212标准差与平均数的比值如果两组数据的度量单位和平均数相同,可用标准差来比较两组数据的离散程度;如果
本文标题:利用分析调查问卷数据
链接地址:https://www.777doc.com/doc-3827788 .html