您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 曙光XData大数据教战手册
曙光XData大数据教战手册曙光信息产业(北京)有限公司产品中心1.教战手册作用曙光XData大数据教战手册是销售人员在与客户沟通时常见问题的回答要点,是让客户清楚曙光在备份领域能做的事情以及曙光的优势,最终为达成销售的目的提供必要的技术解释。2.背景介绍2.1什么是大数据“大数据”并不是一项技术,而是由于不断增长的数据量和数据种类而逐渐衍生出来的一种现象。因此,大数据在业内并没有一个统一的定义。不同厂商、不同用户,站在不同的角度,对大数据的理解不一样。目前说大数据的定义,主要有下面两种:第一种是《TeradataManager》上给出的一个定义,它指出大数据是指超出了常用硬件环境和软件工具在可接受的时间范围内为其用户收集、管理和处理数据的能力。另一种是麦肯锡给出的定义,它说大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。2.2大数据的特点“大数据”这个词,光从字面来看,可能会让人觉得只是容量非常大的数据集合而已。但是,容量只不过是大数据特征的一个方面,如果只拘泥于数据量的话,就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以理解”这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。大数据的特征,可以用四个V开头的关键词来描述:1)数据体积大——Volume截止目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据已经接近EB级。2)数据类型多——Variety数据的多样性可以把数据分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等。这些多类型的数据对数据的处理能力提出了更高要求。3)价值密度低——Value价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连4续不间断的监控中,有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。4)处理速度快——Velocity这是大数据区分于传统数据挖掘的最显著的特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。3.产品介绍3.1产品概述Xdata大数据一体机是一款通用的海量数据处理平台,提供对结构化及非结构化海量数据的存储组织和查询处理功能,满足用户对海量数据的过滤性查询、统计分析类查询和关联分析的处理需求。Xdata大数据一体机可广泛的应用在电信数据统计分析,互联网/移动互联网的日志和用户行为分析,物联网/传感器网络的数据监控和追踪分析,以及金融交易数据的离线统计和挖掘等众多领域。3.2功能特性Xdata大数据处理机将数据存储单元和处理单元分离,通过构架高效的服务中间件,将底层采用无共享结构的数据存储节点,聚合成一个单一的数据处理系统映像,达到较高的数据读写并发度、计算并发度,以及良好的系统扩展性,可靠性和可维护性。系统结构如图:5数据集群复制服务节点数据定义节点管理数据应用数据加载节点负载均衡节点客户端通信软件查询服务节点图表3-1XData系统结构Xdata向用户提供统一的类JDBC的客户端编程接口,向下管理分布在不同存储模块上的不同类型的数据,并提供简易的用户管理界面。Xdata系统的核心计算包括自动的服务注册和负载均衡,可扩展的数据划分和分布策略,高效的批量数据加载,通用的并行查询分析和处理引擎,结构化和非结构化数据的统一访问接口,不同类型数据之间的关联查询和检索,以及全方位的熊故障和恢复处理等多项技术。Xdata的产品功能特性如下:1)分级存储Xdata支持分级存储,以降低系统的总体持有成本。即按照数据量和数据的访问频率,分为在线、离线和备份三个存储级别,并支持数据在各级之间根据策略进行迁移。2)复杂数据类型关联分析Xdata支持大表关联和大表嵌套类等复杂的查询语句的处理。Xdata系统通过将复杂查询解析成在多个数据节点上的并行任务流,来提高复杂查询的处理性能。Xdata支持用户自定义的并行查询任务流,可以支持任意复杂的结构化/非结构化数据处理语义,以满足更广泛的应用需求。3)SN-MPP并行处理架构Xdata采用无共享的集群架构,提供高速的数据写入能力。写入过程中,采用并行6写入的方式,按照一定的数据划分策略,将数据写入到后端的数据节点。Xdata将查询语句分解成为在多个数据模块并行执行的查询任务流,所有的查询处理都在数据节点上并行的执行,充分利用无共享结构的计算并行度。Xdata提供任务断点执行功能,发生意外情况时,失效任务自动恢复执行。4)SQL/MapReduce一体化执行框架XData提供类SQL访问接口:有SQL使用经验的用户无需额外学习即可很方便的使;XData提供SQL/MapReduce混合执行框架,提供跨平台的兼容性。3.3产品特点中科曙光XData大数据一体机的主要硬件组成部分——数据模块DataModule,具有如下特点:1)高性能采用Intel最新一代的E5-2600系列处理器,处理器内部集成PCI-E控制器;处理器之间采用更多、更快的QPI总线,大幅提升CPU之间协作效率;16根DIMM插槽,支持DDR3内存,频率支持1600MHz(由使用的处理器型号决定),最高可支持512GB内存;PCI-E总线提升到3.0标准,极大的提高了扩展性能。2)高可靠性具有高级内存容错功能;支持多网卡冗余,系统正常时分摊网络流量,当其中一块网卡出现问题时,自动将其负担的工作切换到其他网卡;机箱温度检测功能,随时检测机箱内部的温度以及系统风扇的情况,发现问题及时报警;标配2+1冗余电源,防止瞬间掉电,提供用户更稳定可靠的系统电源。3)高扩展性16条DIMM插槽,最大可扩展至512G内存;最大支持36块硬盘,可用作存储服务器;支持6条PCI-E插槽,提供高扩展能力,支持更多扩展卡,为更多应用提供支持。4)高可管理性可选智能硬件监控系统。提供系统内部温度,风扇转速,直流电源电压等工作状态7信息显示。自动记录主机因故障停止工作的时间和日志信息,帮助分析故障原因;支持智能动态调节风扇转速功能,风扇转速随着系统温度动态调整,有效降低了系统噪音和功耗。5)易维护性集成iKVM功能可以对数据控制器进行远程操作、维护,具有多项故障指示功能,有效降低用户宕机风险。3.4产品规格XData大数据一体机包含两类组件:计算模块、数据模块和客户端。计算模块:用于数据的并行加载和查询处理,对客户端提供统一的数据处理接口。数据模块:用于提供结构化/非结构化数据一体化存储空间,内嵌高性能数据存取引擎,并行处理所有计算模块的数据访问请求。客户端:用于和用户应用对接,提供XJDBC/MapReduce统一访问接口和各服务专用访问接口。表格3-1规格列表型号XData大数据一体机系统规格系统容量16PB计算模块1024数据模块1024客户端OSCentOS5X86/X86_64CentOS6X86/X86_64RedHat5X86/X86_64RedHat6X86/X86_64SLES11SP1X86/X86_64SLES11SP2X86/X86_64系统功能系统架构非对称双集群架构,系统由计算集群和数据集群组成访问接口支持类JDBC统一编程接口和各服务专用编程接口,兼容MapReduce执行框架负载均衡支持基于连接数、容量和性能的负载均衡8数据迁移支持数据控制器之间的数据迁移分级存储支持同一系统内的数据分级可扩展性加载模块支持计算模块在线动态添加和安全移除,扩展后系统数据加载能力呈线性增长数据模块支持数据模块在线动态添加,扩展后系统数据查询处理能力呈线性增长硬盘Raid0/1/5/6可靠性计算模块多个计算模块以负载均衡方式运行,单个或多个计算模块故障不影响系统整体的数据加载和查询处理,客户端会自动重连切换到可用的计算模块数据模块数据模块以集群方式运行,支持数据的双副本和分级存储策略对数据可靠性进行保护管理部署支持集中式部署和配置升级支持在用户业务不停止的情况下在线升级,升级过程对原有数据和配置无影响状态监控支持对系统总体状态进行监控,支持对各节点和服务状态进行监控性能监控支持对系统总体性能、资源进行监控,以及各节点的性能、资源进行监控告警支持对系统软硬件故障和系统状体阀值信息进行告警,告警方式支持以界面告警、邮件告警和短信告警等方式3.5XData大数据一体机管理系统Xdata大数据一体机管理系统主要为用户提供对Xdata系统执行各种操作的图形化交互界面。提供的功能包括:安装维护、系统监控、系统管理、告警管理、报表管理和资源管理等服务。其界面操作如下图所示:9图表3-2XData管理系统登录界面图表3-3XData系统管理服务界面10图表3-4XData系统安装界面图表3-5XData系统资源监控界面4.目标行业及典型应用在数据量爆发式增长的时代,数据中蕴含的价值日益受到企业和社会的重视。曙光公司以客户需求为导向,依托十几年的专业技术积累和丰富的项目实践经验,提出以“平台一体,11智汇应用”为核心的曙光大数据战略,为各行各业客户提供业界顶尖水准的大数据整体解决方案和服务,助力客户业务持续创新和增长。曙光大数据提供丰富的平台接口,支持与各行业丰富的第三方应用集成,汇集了智慧城市、金融、电信、交通、医疗、教育、军工等各行各业丰富的大数据应用软件,提供高效和个性化的数据分析服务,挖掘数据价值、释放数据潜能,为客户带来创新的技术模式、商业格局和投资机会,从而获得在信息时代的竞争优势。4.1客户的数据类型客户应用系统的数据通常被分为一下两个大类:1)结构化数据即存储在关系型数据库里面的行数据,可以通过二维表结构来逻辑表达实现的数据。2)非结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来实现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像、音频/视频、智能终端/智能仪表/传感器产生的数据等等。Xdata大数据一体机致力于对分散的结构化和非结构化数据进行整合存储,实现数据的交叉复用及数据的深层次挖掘等应用。4.2典型的行业应用曙光在大数据布局上将采用三步走战略,为企业打着简单易用、注重实效的大数据平台。其中,数据落地式三步走战略中的第一步,其关键点在于数据采集存储,帮助用户掌握大数据分析和处理的方法;第二步是分析简化,让数据化简为繁,结合行业应用形成解决方案。在这一步,曙光同时将为用户提供应用迁移、应用优化以平台开发等服务支持;第三步是价值新生,通过深化应用,联手用户共同探寻、挖掘数据价值。4.2.1金融行业在金融行业,数据存储要求非常高,在我国每天都会产生大量的交易数据,包括银行、证券、保险等各个金融领域都会产生大量的数据。这些数据都会存放在交易系统当中,如果能够把这些历史数据进行分析、挖掘将会产生意向不到的效益。传统金融行业业务系统规范化做的相对来说比较好,大量的数据已经被严格的规范化并存储在关系型数据库当中。目前,金融行业对这些具有潜在价值数据的分析相对来说比较少。12基于金融数据的特点,以下这些业务可以被移植到大数据平台中来:1)监管和改革监管和改革可以为整个国家层面金融统计方面提供依据。除了内部审核之外,还有很多信用风险分析,包括压力分析等。这些都需要金融机构实时的、长期的、频繁的为整个金融数据进行测试和检测。这些对数据的分析对计算能力和计算深度及计算广度的要求都非常的高。利用传统的业务处理手段在处理深度和数据分析的速度上都具有一定的局限性。而大数据的优势是能够针对最底层的交易数据进行全面的模式识别、分析,能够大大提高整个风险分析的能力和效率。2)盈利方面通过对用户进行分类以及对用户信用能力进行分析,可以改善对用户提供的服务,也能极大地提升金融机构的盈利水平。3)运行效率方面对于金融机构来说基本上都是
本文标题:曙光XData大数据教战手册
链接地址:https://www.777doc.com/doc-7435284 .html