您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据结构与算法 > 数据资料的整理与分析
第七章数据资料的整理与分析案例导入:中国传媒大学调查研究统计所(SSI)2006年受某商业机构委托,要求建立一套数学模拟以监测互联网用户对网上信息的关注程度。为此,首先需要确定哪些网上行为最能反映网民对网上信息的关注程度。由于国内外几乎很少有相关文献论及这一问题,同时这一问题也存在一定的文化差异,因此SSI运用深度访谈的方法,了解网民使用互联网的行为习惯及心理特征,以确定该数学模型的理论框架。在完成深度访谈之后,SSI针对每一篇访谈录音稿进行了如下数据整理和分析工作:(1)阅读访谈录音文稿,熟悉文本并回顾访谈情境;(2)将录音稿分成若干板块,首先将网民对各种信息的关注程度分为高、中、低三类,然后将同一类信息有关的文字段落归为同一版块;(3)仔细阅读每一版块,提取反映网民行为和心理特征的关键信息并进行编码;(4)讨论并形成初步的编码表;(5)基于新的访谈录音稿更新编码表;(6)基于主要分析结果及最终的编码表进行头脑风暴会,讨论并确定整体分析框架;(7)图示分析结果,并形成分析报告。通过以上分析,SSI发现网民最网上信息的关注程度与其网上活动的互动程度有紧密的联系,在此基础上SSI设计了网民对网上信息关注程度的理论模型,为后期的定量研究奠定了基础。那么,面对大量的定性数据,一般应该如何处理呢?一、数据资料的整理(一)数据资料整理概述1.定义数据资料的整理是根据市场分析研究的需要,对市场调查获得的大量原始资料进行审核、分组、汇总、列表,或对二手资料进行再加工的工作过程。数据资料的搜集提供原材料,数据资料的整理提供初级产品,数据资料的分析提供最终产品。2.数据资料整理的内容(1)数据资料的审核数据资料的审核是对调查表或调查问卷等提供的原始资料进行审核,检查问卷填答是否合格,或者对二手资料的可靠性、准确性、时效性、完备性进行检查。数据资料的审核目的在于查找问题,采取补救措施,确保数据质量。下面情况的问卷一般是不能接受的:所回收的问卷是明显不完整的;问卷从整体上是回答不完全的;问卷的几个部分是回答不完全的;问卷只有开头的部分才是回答完全的;回答的模式说明访问员(被访者)并没有理解或遵循访问(回答)指南;答案几乎没什么变化;问卷是在事先规定的截止日期以后回收的;问卷是由不符合要求的被访者回答的。通常检查人员将原始文件(问卷)分成三部分:可以接受的明显要作废的对是否可以接受有疑问的。处理不满意的答案三种处理办法:退回实施现场去获取叫好的数据按缺失值处理;整个问卷作废。不满意答案的问卷退回实施现场,让访问员再次去接触被访者。如果将问卷退回现场的做法无法实现,校订人员可能就要把不满意的答案按缺失值处理。满足以下条件,将有不满意答案的问卷扔掉作废:不满意的问卷(被访者)的比例很小(小于10%);样本量很大;不满意的问卷(被访者)和满意的问卷(被访者)之间没有明显的差别;每份不满意的问卷中,不满意答案的比例很大;关键变量的答案是缺失的。(2)数据资料的处理数据资料的处理是对确认无误的调查表或调查问卷进行加工处理,包括分组、编码、汇总等,或者对二手资料进行再分类和调整。数据资料的处理是数据资料整理的关键,其任务在于使原始资料和二手资料实现综合化、系列化和层次化,为进一步的分析研究准备有价值的数据。(3)数据资料的陈示数据资料的陈示是对加工整理后的数据用一定的陈述和显示形式表现出来,以方便阅读和使用。数据资料的陈示形式通常有统计表、统计图、数据库、数据报告等。3.数据资料整理的程序(1)设计方案(2)审核订正(3)分组处理(4)统计汇总(5)数据陈示(二)数据资料的审核数据资料审核的内容(1)审核分析数据资料的及时性(2)审核分析数据资料的完整性(3)审核分析数据资料的准确性。数据资料的准确与否,关系到决策的成败。数据资料的准确性包括两个方面:一是数据资料来源渠道的可靠性;二是数据资料内容的准确性。(4)审核分析数据资料间的相互关系(5)审核分析数据资料的变化规律。市场信息的变化规律有三种类型:一是波动性变化规律;二是趋势性变化规律;三是不规则变化规律。(三)数据资料分组案例某公司派出市场调查人员深入市场进行实地考察,目的是想了解当地工业用户对某类产品的采购方式。市场调查人员走访了几十家公司后,发现各家公司的采购方式与各自公司规模大小、经营产品的类别等密切相关。同时,还发现各自重点选购的商品差别很大。市场调查人员又根据了解到的情况估计,认为这些公司的采购方式很可能与各家公司本身的特点密切相关。于是又将有关这几十家公司的规模、经营的产品等方面资料再作详细分组。为了能够客观地验证各家公司的规模与它的采购方式二者之间可能存在的某种关系,于是,市场调查人员根据各家公司的营业额把这几十家公司分为下列五组:营业额每年100万以上;营业额每年50~100万元;营业额每年25~49.9万元;营业额每年10~24.9万元;营业额每年10万元。分组之后,市场调查人员只需要在这五类规模大小各异的公司中,根据各类公司特点相互比较即可说明问题,而不必逐家公司去进行相互比较了。(三)数据资料的分组对数据资料进行分组的好处:(1)可区分社会经济现象的类型。社会现象之间存在着本质差异,这些差异构成了不同的类型,通过分组划分出各种不同类型,对各种类型的数量表现进行分析研究,就可以认识各种类型的本质及其发展变化规律。(2)可反映事物的内部结构及比例关系。通过分组,可以取得总体内部各部分在总体中所占比重和各部分之间比例关系的资料,而这些资料对于全面认识总体是非常重要的。(3)研究社会现象之间的依存关系。一切社会现象都不是孤立的,而是相互联系、相互制约的,通过分组就能将现象之间的这种依存关系反映出来。1.选择分组标准的依据(1)根据研究的目的选择分组标准。例如,如果目的在于研究职工素质及对提高劳动生产率的影响,则可以按文化程度、技术等级等标准分组。如果是为了了解居民收入对可能购买的需求量的影响,则可按居民收入等标准分组。(2)选择反映事物本质的标准。例如,为反映家庭富裕程度,如表1和表2所示。表2更能反映家庭的富裕程度。每户收入(元)户数(户)600以下600—900900—12001200以上110450395245合计1200每户平均每人的收入(元)户数(户)200以下200—400400—600600以上205435435408合计1200(3)根据经济发展变化及历史条件选择分组标准。例如对机械化、自动化水平较高的企业一般使用生产能力和固定资产作为分组标准分组;而研究乡镇企业的生产规模时,由于多是劳动密集型企业,一般以职工人数作为企业规模的分组标准。2.简单分组与复合分组简单分组,就是对总体只选择一个标准进行分组。例如,按收入分组,可分为高、中、低三类。简单分组只能从某一侧面反映社会经济情况。复合分组是选择两个或两个以上的标准进行分组。用复合标准分组有两种形式:一种是按某一标准分组后,再按另一标准把已分组的各组进一步分为更细的组;另一种是用两种标准同时分组,在实际工作中,这种分组形式使用的很多。3.分组的方法(1)按标准的特征分组根据分组标准的特征不同,可划分为按品质标准分组和按数量标准分组。按品质标准分组,其品质标准是反映事物属性的标志。按品质标准可以把总体单位划分为若干类型,如人口可按性别、职业等划分。按数量标准分组,是按照某一标准的不同数量,将总体单位划分若干组。分组标准的数量可以是绝对值,如职工人数、固定资产等;也可以是相对值,如资金利润率等。分组的形式可以是单项式,如按家庭人口数划分居民的家庭;更多的情况是采用组距式,如将营业额分成若干组,划分企业及其它经济指标。选择数量标准分组,重要的是通过数量差异反映出各组不同的性质。(2)确定分组界限分组界限,是指组与组之间相区别的界限。确定分组界限,包括组数、组距、组限、组中值的确定和计算等内容。资料分组中的相关概念①组距组距=上限-下限②组中值闭口组的组中值=开口组的组中值=2下限上限22相邻组的组距下限相邻组的组距上限4.编制变量数列。例P166(1)将原始资料按大小顺序排好(2)确定组距和组数(四)数据资料的汇编汇编,就是按照分析的目的和要求,对分组后的数据资料进行计算、汇总和编辑,使之成为能反映市场对象客观情况的系统、完整、集中、简明的材料。1.手工汇总技术(1)划记法(2)折叠法(3)记录法(4)卡片法2.计算机汇总技术(五)数据资料的陈示P171数据资料的陈示方式主要有统计表和统计图制表方法1.交叉列表分析技术的含义交叉列表分析是同时将两个或两个以上具有有限类目数和确定值的变量,按照一定顺序对应排列在一张表中,从中分析变量之间的相关关系,得出科学结论的技术。销售增长商品特点行总计日用品耐用品食品速度慢452450119速度快526323138列总计978773257AB公司商品销售统计2.交叉列表分析法的种类(1)单变量列表也就是只有一个变量对收集的数据产生控制。如表所示:性别合计男女252348营销专业学生人数(2)双变量交叉列表双变量交叉列表是最基本的交叉列表分析法。每个单元格中的数字都同时受到两个变量的约束,故反映的信息更多。营销专业学生人数宿舍性别103104105106212213214合计男887225女87823总计887287848(3)三变量交叉列表在实际工作中,双变量交叉列技术对于某些信息不能准确分析,这时就需要加入第三个变量,成为三变量交叉列表。小汽车购买档次收入状况白领或较高收入普通工薪阶层高70%35%低30%65%列总计100%100%被调查者人数300500小汽车购买者中收入与购买汽车档次的关系制图分析统计图是用各种图形表现统计资料的一种形式。它是以统计资料为依据,借助于几何线、形、事物的形象和地图等形式,显示社会经济现象的数量,其表现在规模、水平、构成、相互关系、发展变化趋势分布状况。优点是:简明具体、形象生动、通俗易懂,易给人以明确而深刻的印象。(1)比较图(2)结构图结构图用于反映总体中各部分与总体各部分与总体的结构关系。(3)动态图动态图用于描述与时间相关的事物,随时间的变化而变化的状况。主要适用于条形图、立体图和线图。(4)依存关系图依存关系图主要用于描述两项事物之间的依存变化关系。卡通片体育电视剧歌舞休闲某班小学生最喜欢的电视节目统计图(5)分配数列图分配数列图用一反映某一事物在不同阶段上的变动趋势。(6)面积图用于描述几种状态之间的对比。GBUTtem134050100150200250300350199619971998199920002001第一区第二区第三区销售额*(7)组织结构图利用点、线、形等手段,表现某一组织或某一事物内部各层次之间、各部门之间的层次、从属、并列等关系。如图所示:总经理市场部经理财务部经理新产品经理A公司组织机构图其他如装饰、图片等注图形图尺图线图目图号图注统计图的构成2.3.制图规则(1)图题说明资料内容、地点和时间(2)尺度线与基线垂直(3)尺度的设置应能包括资料中最大的数值(4)以0为起点(5)尺度点之间的距离相等,且表示相同数值(6)尺度点过多时,可间隔写(7)项目较多时最好按大小顺序排列(8)少用附加图标说明,标记应在对应的位置(9)避免过多或过少的标注、斜线、竖线、横线等(10)度量单位的选择要适当(11)作图时最好既使用颜色,又使用文字说明(12)一般应该说明数据的来源减少小数点的位数减少数字标注用符号来代替部分文字使用简单的颜色以服务内容为中心展开设计4.制图技巧二、数据资料的分析(一)概述1.数据资料分析的含义数据资料分析是指根据市场调研的目的,运用多种分析方法对市场调查收集整理的各种资料进行对比研究,得出调查结论,进行对策研究。2.数据资料分析的内容(1)背景分析(2)状态分析(3)因果分析
本文标题:数据资料的整理与分析
链接地址:https://www.777doc.com/doc-7033038 .html