您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 企业文化 > 第5章-可视化关键技术-
高级大数据人才培养丛书之一,大数据挖掘技术与应用何光威主编郑志蕴梁英杰朱琼琼副主编BIGDATA刘鹏张燕总主编大数据可视化第5章大数据可视化的关键技术5.1大数据架构5.2大数据核心技术5.3可视化关键技术5.4大数据可视化渲染高级大数据人才培养系列丛书of452习题5.1大数据架构第5章大数据可视化的关键技术of453•对于“大数据”,研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。•ITUY.3600标准首先明确给出了大数据的定义:一种允许可能在实时性约束条件下收集、存储、管理、分析和可视化具有异构特征的大量数据集的模式。•国内普遍接受的定义:具有数量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的数据。因此大数据的内涵不仅是数据本身,还包括大数据技术和大数据应用。。5.1大数据架构第5章大数据可视化的关键技术of454大数据的数据特征,有4V、5V、7V或11V特征等来描述。容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息(量);速度(Velocity):指获得数据的速度,实时获取需要的信息(速);种类(Variety):结构化数据、半结构化数据和非结构化数据(类);价值(value):价值密度低;合理运用大数据,以低成本创造高价值(价);真实性(Veracity):数据的质量,数据清洗,去伪存真(真);可视化(Visualization):可视化可推动大数据的普及应用(普);粘性(Viscosity):改善用户体验,增加用户对媒体的粘性(粘);上述定义都有一定的道理,特别是5V定义,目前已经被越来越多地接受。大数据时代最大的转变,就是放弃对因果关系的渴求,取而代之关注相关关系。也就是说,只要知道“是什么”,而不需要知道“为什么”。哪5V?。第5章大数据可视化的关键技术of4555.1大数据架构一个概念体系二个价值链维度指它为大数据参考架构中使用的概念提供了一个构件层级分类体系,即“角色-活动-功能组件”,用于描述参考架构中的逻辑构件及其关系“IT价值链”和“信息价值链”,其中“IT价值链”反映的是大数据作为一种新兴的数据应用范式对IT技术产生的新需求所带来的价值,“信息价值链”反映的是大数据作为一种数据科学方法论对数据到知识的处理过程中所实现的信息流价值。大数据参考架构总体上可以概括为“一个概念体系,二个价值链维度”。5.1大数据架构第5章大数据可视化的关键技术of456大数据参考架构图的整体布局按照代表大数据价值链的两个维度来组织,即信息价值链(水平轴)和IT价值链(垂直轴)。5.1大数据架构第5章大数据可视化的关键技术of457系统协调者•系统协调者角色提供系统必须满足的整体要求,包括政策、治理、架构、资源和业务需求,以及为确保系统符合这些需求而进行的监控和审计活动。系统协调者的功能是配置和管理大数据架构的其他组件,来执行一个或多个工作负载。•系统协调者也可以通过管理角色监控工作负载和系统,还可能弹性地分配和提供额外的物理或虚拟资源,以满足由变化/激增的数据或用户/交易数量而带来的工作负载需求。01参考架构可以用于多个大数据系统组成的复杂系统(如堆叠式或链式系统),这样其中一个系统的大数据使用者可以作为另外一个系统的大数据提供者。5.1大数据架构第5章大数据可视化的关键技术of458数据提供者•数据提供者角色为大数据系统提供可用的数据。数据提供者通常需要为各种数据源(原始数据或由其它系统预先转换的数据)创建一个抽象的数据源,通过不同的接口提供发现和访问数据功能。•在一个大数据系统中,数据提供者的活动通常包括采集数据、持久化数据、对敏感信息进行转换和清洗、创建数据源的元数据及访问策略、访问控制、通过软件的可编程接口实现推或拉式的数据访问、发布数据可用及访问方法的信息等。•针对大数据的4V特性和系统设计方面的考虑,暴露和访问数据的接口需要根据变化的复杂性采用推和拉两种软件机制。这两种软件机制包指订阅事件、坚挺数据馈送、查询特定数据属性或内容,以及提交一段代码来执行数据处理功能。025.1大数据架构第5章大数据可视化的关键技术of459大数据应用提供者•大数据应用提供者在数据的生命周期中执行一系列操作,以满足系统协调者建立的系统要求及安全和隐私要求。大数据应用提供者通过把大数据框架中的一般性资源和服务能力相结合,把业务逻辑和功能封装成架构组件,构造出特定的大数据应用系统。•大数据应用提供者角色的扮演者包指应用程序专家、平台专家、咨询师等。大数据应用提供者角色执行的活动包括数据的收集、预处理、分析、可视化和访问。•大数据应用提供者可以是单个实例,也可以是一组更细粒度大数据应用提供着实例的集合,集合中的每个实例执行数据生命周期中的不同活动。03第5章大数据可视化的关键技术of4510收集活动用于处理与数据提供者的接口。它可以是一般服务,也可以是特定于应用的服务。预处理活动执行的任务类似于ETL的转换(transformation)环节,包括数据验证、消洗、去除异常值、标准化、格式化或封装。分析活动的任务是实现从数据中提取出知识。分析活动还可以使用大数据框架提供者的消息和通信框架在应用逻辑中传递数据和控制功能。可视化活动的任务是将分析活动结果以最利于沟通和理解知识的方式展现给数据消费者。可视化的功能包括生成基于文本的报告或者以图形方式渲染分析结果。可视化的结果可以是静态的,存储在大数据框架提供者中供以后访问。可视化活动可以完全由应用程序实现,也可以使用大数据框架提供者提供的专门的可视化处理框架实现。访问活动主要集中在与数据消费者的通信和交互,访问活动与数据消费者的接口可以是同步或异步的,也可以使用拉或推软件机制进行数据传输。5.1大数据架构5.1大数据架构第5章大数据可视化的关键技术of4511大数据框架提供者大数据框架提供者角色为大数据应用提供者在创建特定的大数据应用系统时提供一般资源和服务能力。大数据框架提供者的角色扮演者包括数据中心、云提供商、自建服务器集群等。大数据框架提供者执行的活动和功能包括提供基础设施(物理资源、虚拟资源)、数据平台(文件存储、索引存储)、处理框架(批处理、交互、流处理)、消息和通信框架、资源管理等。04第5章大数据可视化的关键技术of4512基础设施为其他角色执行活动提供存放和运行大数据系统所需要的资源。数据平台通过相关的应用编程接口(APl)或其他方式,提供数据的逻辑组织和分发服务。处理框架提供必要的基础软件以支持实现的应用能够处理具有4V特征的大数据。消息和通信框架为可水平伸缩的集群的结点之间提供可靠队列、传输、数据接收等功能。它通常有2种实现模式,即点对点(point-to-point)模式和存储-转发(store-and-forward)模式。资源管理活动负责解决由于大数据的数据量和速度特征而带来的对CPU、内存、I/0等资源管理问题。有两种不同的资源管理方式,分别是框架内(intra-framework)资源管理和框架间(inter-framework)资源管理。5.1大数据架构5.1大数据架构第5章大数据可视化的关键技术of4513数据消费者数据消费者角色接收大数据系统的输出。它可以是终端用户或者其它应用系统。数据消费者利用大数据应用提供者提供的界面或服务访问他感兴趣的信息,也会通过数据访问活动与大数据应用提供者交互,执行其提供的数据分析和可视化功能。055.1大数据架构第5章大数据可视化的关键技术of4514安全和隐私在大数据参考架构图中,安全和隐私角色覆盖量了其它五个主要角色,即系统协调者、数据提供者、大数据框架提供者、大数据应用提供者、数据消费者,表明这五个主要角色的活动都要受到安全和隐私角色的影响。安全和隐私角色处于管理角包之中,也意味着安全和隐私角色与大数据参考架构中的全部活动和功能都相互关联。在安全和隐私管理模块,通过不同的技术手段和安全措施,构筑大数据系统全方位、立体的安全防护体系,同时应提供一个合理的灾备框架,提升灾备恢复能力,实现数据的实时异地容灾功能。065.1大数据架构第5章大数据可视化的关键技术of4515管理•管理角色包括二个活动组:系统管理和大数据生命周期管理。•系统管理活动组包括调配、配置、软件包管理、软件管理、备份管理、能力管理、资源管理和大数据基础设施的性能管理等活动。•大数据生命周期管理涵盖了大数据生命周期中所有的处理过程,其活动和功能是验证数据在生命周期的每个过程是否都能够被大数据系统正确地处理。075.2大数据核心技术第5章大数据可视化的关键技术of4516数据收集1大数据时代,数据的来源及其广泛,数据有不同的类型和格式,同时呈现爆发性增长的态势,这些特性对数据收集技术也提出了更高的要求。数据收集需要从不同的数据源实时的或及时的收集不同类型的数据并发送给存储系统或数据中间件系统进行后续处理。数据收集一般可分为设备数据收集和Web数据爬取两类,常常用的数据收集软件有Splunk、Sqoop、Flume、Logstash、Kettle以及各种网络防爬虫,如Heritrix、Nutch等数据收集5.2大数据核心技术第5章大数据可视化的关键技术of4517数据预处理2•数据预处理的引入,将有助于提升数据质量,并使得后继数据处理、分析、可视化过程更加容易、有效,有利于获得更好的用户体验。•数据预处理形式上包括数据清理、数据集成、数据归约与数据转换等阶段。第5章大数据可视化的关键技术of4518数据清理技术包括数据不一致性检测技术、脏数据识别技术、数据过滤技术、数据修正技术、数据噪声的识别与平滑技术等。数据集成把来自多哥数据源的数据进行集成,缩短数据之间的物理距离,形成一个集中统一的(同构/异构)数据库、数据立方体、数据宽表与文件等。数据归约技术可以在不损害挖掘结果准确性的前提下,降低数据集的规模,得到简化的数据集。归约策略与技术包括维归约技术、数值归约技术、数据抽样技术等。经过数据转换处理后,数据被变换或统一。数据转换不仅简化处理与分析过程、提升时效性,也使得分析挖掘的模式更容易被理解。数据转换处理技术包括基于规则或元数据的转换技术、基于模型和学习的转换技术等。5.2大数据核心技术5.2大数据核心技术第5章大数据可视化的关键技术of4519数据存储3•分布式存储与访问是大数据存储的关键技术,它具有经济、高效、容错好等特点。•目前的主要数据存储介质类型包括内存、磁盘、磁带等;主要数据组织管理形式包括按行组织、按列组织、按键值组织和按关系组织;主要数据组织管理层次包括按块级组织、文件级组织以及数据库级组织等。第5章大数据可视化的关键技术of4520不同的存储介质和组织管理形式对应于不同的大数据特征和应用特点。1.分布式文件系统•分布式文件系统是由多个网络节点组成的向上层应用提供统一的文件服务的文件系统。•使用分布式文件系统时,无需关心数据存储在哪个节点上,只需像本地文件系统一样管理和存储文件系统的数据。目前常用的分布式磁盘文件系统有HDFS(Hadoop分布式文件系统)、GFS(Google分布式文件系统)、KFS(Kosmosdistributedfilesystem)等;常用的分布式内存文件系统有Tachyon等。5.2大数据核心技术2.文档存储•文档存储支持对结构化数据的访问,不同于关系模型的是,文档存储没有强制的架构。事实上,文档存储以封包键值对的方式进行存储且文档存储模型支持嵌套结构•与键值存储不同的是,文档存储关心文档的内部结构。这使得存储引擎可以直接支持二级索引,从而允许对任意字段进行高效查询。主流的文档数据库有MongoDB、CouchDB、Terrastore、Rav
本文标题:第5章-可视化关键技术-
链接地址:https://www.777doc.com/doc-4856991 .html