您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 数据分析基础课程-第2章--数据的收集
目录/Contents2.1理解数据2.2数据的来源第二章数据的收集2.1理解数据2.1.1数据的类型在Excel中,数据类型细分起来有很多(见图2-1),但是归根结底还是四大类,分别是:数值、货币、日期与时间、文本。图2-1Excel数据类型1.1数字通信系统的基本概念在数据运算过程中,我们发现,数值、货币、日期与时间都可以进行加、减、乘、除等算术运算,所以统称为数值型;而文本只能进行简单的“计数”,不能进行算术运算,仍称文本型。所以,在Excel数据分析中,我们把数据类型分成两种:数值型数据和文本型数据。数值型数据对应统计学中的数量标志的标志表现,文本型数据对应统计学中的品质标志的标志表现。2.1.2数据的呈现形式1.不同个体在同一标志上的不同取值在Excel中,这样的数据可以排成一列,也可以排成一行或一个矩形块。某公司100名职工的月基本工资数据资料如图2-2和图2-3所示。图2-2单列数据图2-3矩形块数据2.数据清单不同个体在多个标志上的取值所组成的二维表格,在Excel中叫数据清单,如图2-4所示。图2-4数据清单Excel数据清单包含一行列标题和多行数据,清单中的每一列称为一个字段,列标题称为字段名(即统计学中的标志);清单中的每一列数据的类型和格式完全相同;清单中每一行数据称为一条记录。数据清单中不能有合并单元格的形式。多个相关的数据清单在一起,就称为一个数据库。2.2数据的来源2.2.1一手数据1.观察法观察法是指调查人员亲自到现场对调查对象进行观察,在被调查者不察觉的情况下获得数据资料的一种调查方法。2.采访法采访法是通过指派调查人员对被调查者提问,据被调查者的答复取得资料的一种调查方法。3.问卷调查法问卷调查法是把调查项目列于表格上形成问卷,通过发放问卷搜集调查对象情况的一种采集资料的方法。问卷中问题的设计应注意以下原则。(1)具体性原则,即问题的内容要具体,不要提抽象、笼统的问题。(2)单一性原则,即问题的内容要单一,不要把两个或两个以上的问题合在一起提。(3)通俗性原则,即表述问题的语言要通俗,不要使用使被调查者感到陌生的语言,特别要避免使用过于专业的术语。(4)准确性原则,即表述问题的语言要准确,不要使用模棱两可、含混不清或容易产生歧义的语言或概念。(5)简明性原则,即表述问题的语言应该尽可能简单明确,不要冗长和啰唆。(6)客观性原则,即表述问题的语言要客观,不要有诱导性或倾向性语言。(7)非否定性原则,即要避免使用否定句形式表述问题。(8)可能性原则,即必须符合被调查者回答问题的能力。凡是超越被调查者理解能力、记忆能力、计算能力、回答能力的问题,都不应该提出。(9)自愿性原则,即必须考虑被调查者是否自愿真实回答问题。凡被调查者不可能自愿真实回答的问题,都不应该正面提出。4.抽样调查法抽样调查法是根据随机性原则,从研究对象的总体中抽取一部分个体作为样本进行调查研究,据此推断有关总体的数字特征的研究方法。抽样应遵循以下原则。(1)随机取样。(2)取样应具有代表性。(3)若样本由具有明显不同特征的部分组成,应按比例从各部分抽样。5.实验法实验法是在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需的资料。6.报告法报告法是通过报告单位根据一定的原始记录和台账,根据统计表的格式和要求,按照隶属关系,逐级向有关部门提供统计资料的一种调查方法。7.自动生成在大数据时代,数据的产生方式呈现多样化,如从传感器、摄像头自动收集的数据,电子商务在线交易日志数据、应用服务器日志数据等自动保存的数据都是自动生成的数据。2.2.2二手数据二手数据也称为次级数据,是指那些从同行或一些媒体上获得的、经过加工整理的数据,比如国家统计局定期发布的各种数据,从报纸、电视上获取的各种数据。1.导入Access数据(1)在Excel中单击“数据”|“自Access”按钮,如图2-5所示。图2-5导入Access数据(2)在弹出的对话框中选择需要的Access文件“图书销售.accdb”,如图2-6所示。图2-6选择Access文件(3)单击“打开”按钮,在弹出的对话框中选择需要的表“销售情况”,如图2-7所示。(4)在弹出的对话框中确定数据的显示方式和放置位置,如图2-8所示。图2-7选择Access表图2-8选择显示方式和放置位置(5)单击“确定”按钮,导入的结果如图2-9所示。图2-9导入的结果2.导入网站表格数据(1)在Excel中单击“数据”|“自网站”按钮,如图2-10所示。(2)输入或复制并粘贴网址。图2-10导入网站数据图2-11选择导入的表格导入的结果如图2-12所示。(3)也可以选择网页上的数据后,单击鼠标右键,在弹出的快捷菜单中选择“复制”命令,如图2-13所示,再到Excel中粘贴即可。图2-12导入的结果图2-13复制数据3.利用爬虫软件下载网络数据万维网上更多的数据是以非表格形式呈现的。如何有效地提取并利用这些信息成为一个巨大的挑战。为了解决上述问题,定向抓取相关网页资源的软件——聚焦网络爬虫应运而生。聚焦网络爬虫是一种能自动下载万维网数据的程序,它能按照一定的规则,根据既定的目标,自动地抓取万维网上的数据。
本文标题:数据分析基础课程-第2章--数据的收集
链接地址:https://www.777doc.com/doc-1391179 .html