您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 市场营销 > 第2章 大数据的可视化
第2章大数据的可视化2大数据导论目录1数据与可视化2数据与图形3公共数据集4实时可视化5挑战图像的多变性6数据可视化的运用3大数据导论【导读案例】南丁格尔“极区图”弗洛伦斯·南丁格尔(1820年5月12日~1910年8月13日,图2-1)是世界上第一个真正意义上的女护士,被誉为现代护理业之母,5.12国际护士节就是为了纪念她,这一天是南丁格尔的生日。除了在医学和护理界的辉煌成就,实际上,南丁格尔还是一名优秀的统计学家——她是英国皇家统计学会的第一位女性会员,也是美国统计学会的会员。据说南丁格尔早期大部分声望都来自其对数据清楚且准确的表达。4大数据导论【南丁格尔“极区图”】图2-1南丁格尔5大数据导论【南丁格尔“极区图”】南丁格尔生活的时代各个医院的统计资料非常不精确,也不一致,她认为医学统计资料有助于改进医疗护理的方法和措施。于是,在她编著的各类书籍、报告等材料中使用了大量的统计图表,其中最为著名的就是极区图(PolarAreaChart),也叫南丁格尔玫瑰图(图2-2)。6大数据导论【南丁格尔“极区图”】图2-2南丁格尔“极区图”7大数据导论【南丁格尔“极区图”】南丁格尔发现,战斗中阵亡的士兵数量少于因为受伤却缺乏治疗的士兵。为了挽救更多的士兵,她画了这张《东部军队(战士)死亡原因示意图》(1858年)。这张图描述了1854年4月~1856年3月期间士兵死亡情况,右图是1854年4月~1855年3月,左图是1855年4月~1856年3月,用蓝、红、黑三种颜色表示三种不同的情况,蓝色代表可预防和可缓解的疾病治疗不及时造成的死亡、红色代表战场阵亡、黑色代表其他死亡原因。图表个扇区角度相同,用半径及扇区面积来表示死亡人数,可以清晰的看出每个月因各种原因死亡的人数。显然,1854~1855年,因医疗条件而造成的死亡人数远远大于战死沙场的人数,这种情况直到1856年初才得到缓解。南丁格尔的这张图表以及其他图表“生动有力的说明了在战地开展医疗救护和促进伤兵医疗工作的必要性,打动了当局者,增加了战地医院,改善了军队医院的条件,为挽救士兵生命做出了巨大贡献”。8大数据导论【南丁格尔“极区图”】南丁格尔“极区图”是统计学家对利用图形来展示数据进行的早期探索,南丁格尔的贡献,充分说明了数据可视化的价值,特别是在公共领域的价值。图2-3是社交网站(Facebookvs.推特)对比信息图,是一张典型的南丁格尔玫瑰图(极区图)的导读案例。极区图在数据统计类信息图表中是常见到的一类图表形式。9大数据导论【南丁格尔“极区图”】图2-3极区图:Facebookvs.推特数据与可视化2.111大数据导论2.1数据与可视化数据是什么?大部分人会含糊地回答说,数据是一种类似电子表格的东西,或者一大堆数字。有点儿技术背景的人会提及数据库或者数据仓库。然而,这些回答只说明了获取数据的格式和存储数据的方式,并未说明数据的本质是什么,以及特定的数据集代表着什么。12大数据导论2.1数据与可视化数据不仅仅是数字,要想把数据可视化,就必须知道它表达的是什么。事实上,数据是现实世界的一个快照,会传递给我们大量的信息。一个数据点可以包含时间、地点、人物、事件、起因等因素,因此,一个数字不再只是沧海一粟。可是,从一个数据点中提取信息并不像一张照片那么简单。你可以猜到照片里发生的事情,但如果对数据心存侥幸,认为它非常精确,并和周围的事物紧密相关,就有可能曲解真实的数据。你需要观察数据产生的来龙去脉,并把数据集作为一个整体来理解。关注全貌,比只注意到局部时更容易做出准确的判断。13大数据导论2.1数据与可视化通常在实施记录时,由于成本太高或者缺少人力,或二者皆有,人们不大可能记录下一切,而是只能获取零碎的信息,然后寻找其中的模式和关联,凭经验猜测数据所表达的含义,数据是对现实世界的简化和抽象表达。当你可视化数据的时候,其实是在将对现实世界的抽象表达可视化,或至少是将它的一些细微方面可视化。可视化是对数据的一种抽象表达,所以,最后你得到的是一个抽象的抽象。这并不是说可视化模糊了你的视角。恰恰相反,可视化能帮助你从一个个独立的数据点中解脱出来,换一个不同的角度去探索它们。14大数据导论2.1数据与可视化数据和它所代表的事物之间的关联既是把数据可视化的关键,也是全面分析数据的关键,同样还是深层次理解数据的关键。计算机可以把数字批量转换成不同的形状和颜色,但是你必须建立起数据和现实世界的联系,以便使用图表的人能够从中得到有价值的信息。数据会因其可变性和不确定性而变得复杂,但放入一个合适的背景信息中,就会变得容易理解了。15大数据导论2.1.1数据的可变性以美国国家公路交通安全管理局发布的公路交通事故数据为例,我们来了解数据的可变性。从2001年到2010年,根据美国国家公路交通安全管理局发布的数据,全美共发生了363839起致命的公路交通事故。这个总数代表着那部分逝去的生命,把所有注意力放在这个数字上(图2-4),能让你深思,甚至反省自己的一生。16大数据导论2.1.1数据的可变性图2-42001年~2010年全美公路致命交通事故总数知名交通事故,2001—201036383917大数据导论2.1.1数据的可变性然而,除了安全驾驶之外,从这个数据中你还学到了什么?美国国家公路交通安全管理局提供的数据具体到了每一起事故及其发生的时间和地点,我们可以从中了解到更多的信息。如果在地图中画出2001年~2010年间全美国发生的每一起致命的交通事故,用一个点代表一起事故,就可以看到事故多集中发生在大城市和高速公路主干道上,而人烟稀少的地方和道路几乎没有事故发生过。这样,这幅图除了告诉我们对交通事故不能掉以轻心之外,还告诉了我们关于美国公路网络的情况。18大数据导论2.1.1数据的可变性观察这些年里发生的交通事故,人们会把关注焦点切换到这些具体的事故上。图2-5显示了每年发生的交通事故数,所表达的内容与简单告诉你一个总数完全不同。虽然每年仍会发生成千上万起交通事故,但通过观察可以看到,2006年到2010年间事故显著呈下降趋势。19大数据导论2.1.1数据的可变性图2-5每年的致命交通事故数40000300002000010000020012005201020大数据导论2.1.1数据的可变性从图2-6中可以看出,交通事故发生的季节性周期很明显。夏季是事故多发期,因为此时外出旅游的人较多。而在冬季,开车出门旅行的人相对较少,事故就会少很多。每年都是如此。同时,还可以看到2006年到2010年呈下降趋势。21大数据导论2.1.1数据的可变性图2-6月度致命交通事故数40003000200010000200120022003200420052006200720082009201022大数据导论2.1.1数据的可变性如果比较那些年的具体月份,还有一些变化。例如,在2001年,8月份的事故最多,9月份相对回落。从2002年到2004年每年都是这样。然而,从2005年到2007年,每年7月份的事故最多。从2008年到2010年又变成了8月份。另一方面,因为每年2月份的天数最少,事故数也就最少,只有2008年例外。因此,这里存在着不同季节的变化和季节内的变化。我们还可以更加详细地观察每日的交通事故数,例如看出高峰和低谷模式,可以看出周循环周期,就是周末比周中事故多,每周的高峰日在周五、周六和周日间的波动。可以继续增加数据的粒度,即观察每小时的数据。23大数据导论2.1.1数据的可变性重要的是,查看这些数据比查看平均数、中位数和总数更有价值,那些测量值只是告诉了你一小部分信息。大多数时候,总数或数值只是告诉了你分布的中间在哪里,而未能显示出你做决定或讲述时应该关注的细节。一个独立的离群值可能是需要修正或特别注意的。也许在你的体系中随着时间推移发生的变化预示有好事(或坏事)将要发生。周期性或规律性的事件可以帮助你为将来做好准备,旦面对那么多的变化,它往往就失效了,这时应该退回到整体和分布的粒度来进行观察。24大数据导论2.1.2数据的不确定性数据具有不确定性。通常,大部分数据都是估算的,并不精确。分析师会研究一个样本,并据此猜测整体的情况。每天你都在做这样的事情,你会基于自己的知识和见闻来猜测,尽管大多数的时候你确定猜测是正确的,但仍然存在着不确定性。例如,笔记本电脑上的电池寿命估计会按小时增量跳动;地铁预告说下一班车将会在10分钟内到达,但实际上是11分钟,预计在周一送达的一份快件往往周三才到。25大数据导论2.1.2数据的不确定性如果你的数据是一系列平均数和中位数,或者是基于一个样本群体的一些估算,你就应该时时考虑其存在的不确定性。当人们基于类似全国人口或世界人口的预测数做影响广泛的重大决定时,这一点尤为重要,因为一个很小的误差也可能会导致巨大的差异。换个角度,想象一下你有一罐彩虹糖(图2-7),没法看清罐子里的情况,你想猜猜每种颜色的彩虹糖各有多少颗。如果你把一罐彩虹糖统统倒在桌子上,一颗颗数过去,就不用估算了,你已经得到了总数。但是你只能抓一把,然后基于手里的彩虹糖推测整罐的情况。这一把越大估计值就越接近整罐的情况,也就越容易猜测。相反,如果只能拿出一颗彩虹糖,那你几乎就无法推测罐子里的情况。26大数据导论2.1.2数据的不确定性图2-7彩虹糖27大数据导论2.1.2数据的不确定性只拿一颗彩虹糖,误差会很大。而拿一大把彩虹糖,误差会小很多。如果把整罐都数一遍,误差就是零。当有数百万个彩虹糖装在上千个大小不同的罐子里时,分布各不相同,每一把的大小也不一样,估算就会变得更复杂了。接下来,把彩虹糖换成人,把罐子换成城、镇和县,把那一把彩虹糖换成随机分布的调查,误差的含义就有分量多了。如果不考虑数据的真实含义,很容易产生误解。要始终考虑到不确定性和可变性。这也就到了背景信息发挥作用的时候了。28大数据导论2.1.3数据所依存的背景信息仰望夜空,满天繁星看上去就像平面上的一个个点。你感觉不到视觉深度,会觉得星星都离你一样远,很容易就能把星空直接搬到纸面上,于是星座也就不难想象了,把一个个点连接起来即可。然而,实际上不同的星星与你的距离可能相差许多光年。假如你能飞得比星星还远,星座看起来又会是什么样子呢?如果切换到显示实际距离的模式,星星的位置转移了,原先容易辨别的星座几乎认不出了。从新的视角出发,数据看起来就不同了。这就是背景信息的作用。背景信息可以完全改变你对某一个数据集的看法,它能帮助你确定数据代表着什么以及如何解释。在确切了解了数据的含义之后,你的理解会帮你找出有趣的信息,从而带来有价值的可视化效果。29大数据导论2.1.3数据所依存的背景信息使用数据而不了解除数值本身之外的任何信息,就好比拿断章取义的片段作为文章的主要论点引用一样。这样做或许没有问题,但却可能完全误解说话人的意思。你必须首先了解何人、如何、何事、何时、何地以及何因,即元数据,或者说关于数据的数据,然后才能了解数据的本质是什么。–何人(who):“谁收集了数据”和“数据是关于谁的”同样重要。–如何(how):大致了解怎样获取你感兴趣的数据。如果数据是你收集的,那一切都好,但如果数据只是从网上获取到的,这样,你不需要知道每种数据集背后精确的统计模型,但要小心小样本,样本小,误差率就高,也要小心不合适的假设,比如包含不一致或不相关信息的指数或排名等。–何事(what):你还要知道自己的数据是关于什么的,你应该知道围绕在数字周围的信息是什么。你可以跟学科专家交流,阅读论文及相关文件。30大数据导论2.1.3数据所依存的背景信息–何时(when):数据大都以某种方式与时间关联。数据可能是一个时间序列,或者是特定时期的一组快照。不论是哪一种,你都必须清楚知道数据是什么时候采集的。由于只能得到旧数据,于是很多人便把旧数据当成现在的对付一下,这是一种常见的错误。事在变,人在变,地点也在变,数据自然也会变。–何地(where):正如事情会随着时间变化,它们也会随着城市、地区和国家的不同而变化:例如,不要
本文标题:第2章 大数据的可视化
链接地址:https://www.777doc.com/doc-3970988 .html