您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > SAS大数据分析解决方案手册
释放大数据真正价值SAS可视化分析解决方案简介一图胜千言——尤其是当您试图理解您的数据并从中获得洞察的时候。您可能需要从成千上万甚至是数百万个变量中发现它们之间的关系,并判定这些关系的重要性程度,此时可视化技术就显得尤为重要。各种企业机构每天、每小时甚至每分钟都在产生大量的数据。每个人——从管理层、部门主管到呼叫中心的坐席、生产线上的员工——都希望能从所收集的数据中获得洞察,这些洞察有助于他们制定更好的决策、采取更智慧的行动、进行更有效的运营。如果您的数据已经超过数十亿条记录,要想从中判别出重要关系,您就需要借助于先进分析技术和高性能的数据可视化技术。设想一下,如果您能够迅速(甚至是在片刻之间)完成复杂的分析,分析结果又能够很形象地展示出其中隐含的模式,还能支持您进行查询和探索,那么企业结构中各个层级的人员就可以更快地制定出更有效的决策。而要想从数据中生成有意义的可视化,您就需要考虑采用某些方法和技术。数据的大小以及变量的组成,是在选择图形时必须考虑到的重要因素。本文针对数据可视化中的一些基本问题展开探讨,并给出解决这些问题的若干建议。除此之外,大数据还为数据可视化带来了一系列挑战。本文同样针对这些挑战展开探讨,并给出可行的解决方案。如果您正在分析处理大量的数据,面临的一个挑战就是如何展示数据探索和分析的结果,考虑该采取何种方式才不会让分析结果淹没在数据的汪洋大海之中。您需要全新的方法来查看数据,这种方法可以直观地对分析结果进行折叠和浓缩,同时又可以按照决策者习惯的查看方式来显示图形图表。您可能还需要通过移动设备来快速访问分析结果,让用户可以很方便地实时探索他们的数据。SAS可视化分析是一套全新的商业智能解决方案,采用了智能的自动绘图技术,帮助业务分析师和非技术背景的用户来可视化地分析数据。该技术能够基于您所选择的数据来生成最合适的图形。SAS可视化分析还采用了高性能分析技术,以极快的速度来探索海量数据,从中发现模式和趋势,识别出需要展开深入分析的切入点,并将分析结果展现给信息消费者。SAS可视化分析的核心与灵魂就是SASLASR分析服务器,它为海量数据的分析运算带来了根本性的变革,使之成为可能并大大加快,借助内存分析技术实现了空前的性能大幅提升。将高性能分析和易用的数据探索界面相结合,让各种用户都可以生成图形并与之交互,就能够更快地理解这些海量数据并从中获得价值。这也带来了空前的能力,让您可以快速而充满信心地解决困难问题,改善业务绩效,降低风险。关于SASSAS可视化分析技术白皮书:从基础分析到大数据应用………………………03-15SAS可视化分析产品说明书………………………………………………………16-19研究报告之如何对大数据成功运用可视化技术………………………………20-23SAS于1976年创建于美国,是全球领先的商业分析软件与服务供应商,也是目前全世界范围内商业智能市场上最大的独立厂商。目前,SAS在56个国家和地区拥有近13,000名员工。全球范围内,超过134个国家的60,000多家客户都在采用SAS解决方案,其中包括《财富》全球500强企业前100家企业中的90家。90年代初SAS的产品开始被中国用户所使用,2006年SAS将北京设立为中国总部,在上海和广州设有分公司,并在北京成立研发中心和用户服务支持中心。SAS在华业务覆盖商业智能和分析软件及解决方案、智能领域专业咨询服务、基于SAS解决方案的专业培训和技术支持等。SAS中国团队凭借久经考验的解决方案和全球37年丰富的实施经验,结合本地客户需求,帮助各个行业的企业透过表面数据深入洞察企业绩效、客户、市场、风险等方面的情况,帮助客户构建知的力量、抓住未来机遇(ThePowertoKnow)。伴随着SAS在中国市场持之以恒的努力,SAS赢得了越来越多国内用户的信任和支持,包括金融、电信、政府、制造、能源、交通、环保、制药等各个行业。随着市场的不断发展,SAS公司将进一步加大对中国的投入,把先进的技术和成熟的行业解决方案带给中国的客户。SAS可视化分析:从基础分析到大数据应用技术白皮书ThePowerToKnowTM©2013SAS版权所有54图3:条形图最常用于对不同类别进行数量比较。条形图可以配置为横向或纵向显示,每个条的高度用于表示取值。条形图条形图最常用于对不同类别或分组进行数量比较(参见图3)。各个类别的取值用条形来表示,可以配置为横向或纵向显示,每个条的高度用于表示取值。如果条之间的差异明显,可以通过人眼清晰分辨的话,您就可以采用简单条形图。但是,如果这些数值彼此都很接近,或者需要显示大量条形的时候,就很难通过条形图来清晰比较了。为了突出视觉上的差异,可以使用不同颜色来绘制彩色条形图。颜色可用于表示特定的状态或取值范围。当大多数条形位于不同取值范围或状态时,很适合采用彩色条形图。而如果所有的条形都位于相同取值范围或状态时,颜色就与取值无关了,此时最好使用相同颜色或根本不用颜色。条形图的另一种变形称之为渐进式条形图,或称为瀑布图。瀑布图可以形象化地展示这种场景:经过一系列的操作或事务之后,某个指标的初始值是如何增加或减少的过程。第一个条形代表初始取值,后续每个条形的起始值就是前一个条形的终止值。条形的长度和方向代表着操作或事务的规模和类型(例如正向或反向)。最终的图形就表示一种逐步的跌宕变化,显示出一系列操作或事务是如何将指标导向终止取值。为您的数据生成最佳可视化以下这些基本概念有助于为您的数据生成最佳可视化:•理解您想进行可视化的数据,包括数据的大小和基数。•判断您想进行何种可视化以及希望传达何种信息。•了解您的读者以及他们是如何看待可视化信息。•采取最佳的可视化方法,简单清晰地向您的读者传达信息。基础分析:图表技术101对于那些想知道该在何时使用何种图表类型的读者来说,下面是一份快速指南,帮助您决定何种图表类型最适用于您的数据。线图线图用于显示单个变量和另一个变量之间的关系。常用于跟踪变量随时间的变化或发展趋势(参见图1)。当您需要在同一时间段对多个项目进行比较时,线图也很有用(参见图2)。堆叠线图可用于比较多个变量的发展趋势或各自取值。当您需要清晰展现单个变量或多个变量的变化,或者同时也需要展现其发展趋势或变化率的时候,可以考虑采用线图。需要注意的是,并非仅仅因为您有一系列数据点,您就一定要采用线图。更恰当的做法是,根据数据点的个数来决定最佳的可视化方式。举例来说,假设您只有10个数据点需要显示,查看这10个数据点的最简单做法,也许只需要在表格中按特定顺序列出它们即可。当决定采用线图时,您应该自问是否想传达出这样的信息:数据点之间存在某种关系。如果是这样的话,而且X轴的取值是连续的,那么一张简单的线图就可能是您所需要的。什么是数据基数?基数(Cardinality)指的是某个变量不同取值的个数。高基数意味着不同取值的高占比(例如银行账号,因为每个银行账号都是唯一的)。低基数意味着重复取值的高占比(例如性别)。图1:线图显示了单个变量和另一个变量之间的关系。图2:多分类线图用于在同一时间段对多个项目进行比较。SAS可视化分析:从基础分析到大数据应用技术白皮书ThePowerToKnowTM©2013SAS版权所有76气泡图——散点图的变种气泡图是散点图的一个变种,使用气泡来代替散点图中的标记。在气泡图中,每个气泡代表一个观测。气泡的位置对应于两个坐标轴上的指标取值,气泡的大小则对应第三个指标的取值。气泡图适用于展现具有几十至几百种取值的数据集,或者是存在数量级差异的取值。当您想要借助不同气泡大小来可视化展现特定数值时,可以采用气泡图。当您希望展现数据随时间的变化时,动画气泡图是一种很好的方式。饼图关于饼图的价值和有效性,还存在很大的争议。饼图常用语对整体中的各个部分进行比较。但是,这种展现方式可能很难解读,因为要通过肉眼来分辨扇区的面积和夹角常常是很困难的。采用饼图来进行分析的另一个挑战是,要想比较彼此不相邻而面积又比较接近的扇区的确很困难。出于这些原因,在数据分析中使用饼图的机会就比较少了。如果您坚持要用饼图,最好是在扇区数量比较少的情况下使用,同时使用文字和百分比来进行描述,这样的饼图才能真正有效果。由于提供了描述信息,用户就无需猜测每个扇区的含义和大小。如果您选择使用饼图,每个扇区的大小应该代表其占总体的百分比(参见图5)。在设计报表或仪表盘的时候,为了更好地发挥饼图的功效,还要考虑它在报表中所占的空间大小。由于饼图是圆形的,它实际上会占用更多的报表空间,所以不太适合放在小屏幕或移动设备的仪表盘展现中。此时,采用其他图表类型可能会更好,因为它们能够传达同样的信息,但所需的空间却更少(参见图6)。最好是在扇区数量比较少的情况下使用饼图,同时使用文字和百分比来进行描述,这样的饼图才能真正有效果。图5:在数据可视化领域,饼图的使用一直充满争议。图6:线图和条形图都可以作为饼图的替代。散点图散点图(或称X-Y散点图)是一种二维图形,用于显示两组数据的关联变化。在散点图中,每个标记(用符号表示,例如点、方框或加号)代表一个观测。标记所在的位置就是每个观测的取值。散点图也支持分组。如果你指派的指标超过两个,就会生成散点图矩阵。散点图矩阵式一系列散点图,其中的每个散点图用于显示每个可能成对的指标,这些指标是您指派用于可视化的。当您想检视X变量和Y变量之间的关系或相关性时,散点图是非常有用的。如果变量之间彼此依赖的,或者互相产生一定的影响,我们称这些变量是相关的。例如,“利润”和“收入”之间常常是相关的——一般来说,如果收入增长了,那么利润通常也会增长(称之为正相关关系)。散点图是可视化展现数据间关系的一种很好的方法。在散点图中,您也可以进行统计分析,包括相关分析和回归分析。相关分析能够帮助您判别变量间的统计相关性。回归分析则能够帮助您绘制变量间的关系模型。一旦您在散点图中将所有数据点画出来,您就能够可视化地判别数据点是否相关。散点图能够让您获得一种知觉,了解数据是如何散布的,数据点之间是否紧密关联,并能够快速识别出数据分布中所包含的模式(参见图4)。在数据点众多的情况下,散点图很有用。而当数据点比较稀少的时候,采用条形图或者数据表来展现信息,可能会更有效。散点图能够让您获得一种知觉,了解数据是如何散布的,数据点之间是否紧密关联。它还能够快速识别出数据分布中所包含的模式。图4:散点图是可视化展现数据间关系的一种很好的方法。SAS可视化分析:从基础分析到大数据应用技术白皮书ThePowerToKnowTM©2013SAS版权所有98数据量有可能是个大问题,因为传统的架构和软件难以有效处理海量数据,无法及时产生分析结果,使得您不得不采取折衷的方法,对想要可视化的明细数据进行汇总。当您在处理大数据时,即便是最普通的描述性统计也会难以计算,因为您不得不面对变量数的限制、存储空间的限制、以及多种数据类型的支持问题。SAS对此给出的一个解决方案是内存分析引擎,它可以加速数据探索的进程,同时还提供了可视化的界面(通过SAS可视化分析)来清晰展现分析结果。例如,设想一下您的数据集中有数十亿条记录,希望基于其中两个指标变量来绘制散点图,结果会怎么样?用户会详细查看散点图上的这数十亿个点吗?显然不会。因为这么多点他根本看不过来。同时,可视化软件也很难及时有效地将这数十亿个点绘制出来。一个可行的方法是通过对两个坐标轴上的数据进行分箱(对数据进行分组),从而更有效地实现大数据的可视化(参见图7)。箱图是另一个例子,显示了数据量是如何影响可视化的展示。箱图是包含了五种统计量(最小值、下四分位数、中位数、上四分位数、最大值)的图形,用于描述数据分布的汇总特征。下四分位数(第25分位数)用箱体下沿表示,上四分位数(第75分位数)用箱体上沿表示。中位数(第50分位数)用箱体中的横线表示。极值用从箱体上下沿向外延伸的须线表示。图7:SAS可视化分析提供了自动绘图功能和“这是什么意思”的气泡提示,帮助非技术用户来创建和理解数据可视化。“这是什么意思”气泡提示(图中右下角)对分
本文标题:SAS大数据分析解决方案手册
链接地址:https://www.777doc.com/doc-6208652 .html