您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 英特尔Hadoop大数据解决方案白皮书
Hadoop分布式文件系统(HDFS)是运行在通用硬件上的分布式文件系统。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为海量数据存储的事实标准。随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成为了业务发展的瓶颈和障碍。HDFS通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展。HDFS可以提供以下特性:•可自我修复的分布式文件存储系统•高可扩展性,无需停机动态扩容•高可靠性,数据自动检测和复制•高吞吐量访问,消除访问瓶颈•使用低成本存储和服务器构建分布式文件系统HDFS简介英特尔Hadoop发行版提供下列核心优势:1.经过客户验证的企业级Hadoop版本,稳定可靠2.图形化安装、管理、监控工具,自动进行集群配置优化3.改进的HDFS文件I/O算法,提高系统扩展性,适合不同配置服务器组成的集群4.根据HDFS数据的热点程度动态调整数据复制策略,提高HDFS系统吞吐量5.HDFS和MapReduce的高可靠性增强6.跨区域数据中心的HBase超级大表,位置透明的数据访问和全局汇总7.HBase大表跨数据中心远程双向复制,适合异地灾备8.HBase高级Region负载均衡算法,适合多应用、多用户9.基于HBase的更高性能的分布式聚合和统计10.HBase的不同表或不同列族的复制份数精细控制白皮书英特尔Hadoop大数据解决方案高吞吐量访问HDFS的每个数据块分布在不同机架的一组服务器之上,在用户访问时,HDFS将会计算使用网络最近的和访问量最小的服务器给用户提供访问。由于数据块的每个复制拷贝都能提供给用户访问,而不是仅从数据源读取,HDFS对于单数据块的访问性能将是传统存储方案的数倍。分布式文件系统HDFS特性对于一个较大的文件,HDFS将文件的不同部分存放于不同服务器之上。在访问大型文件时,系统可以并行从服务器阵列中的多个服务器并行读入,增加了大文件读入的访问带宽。通过以上实现,HDFS通过分布式计算的算法,将数据访问均摊到服务器阵列中的每个服务器的多个数据拷贝之上,单个硬盘或服务器的吞吐量限制都可以数倍甚至数百倍的突破,提供了极高的数据吞吐量。英特尔Hadoop发行版无缝容量扩充HDFS将文件的数据块分配信息存放在NameNode服务器之上,文件数据块的信息分布地存放在DataNode服务器上。当整个系统容量需要扩充时,只需要增加DataNode的数量,系统会自动地实时将新的服务器匹配进整体阵列之中。之后,文件的分布算法会将数据块搬迁到新的NameNode之中,不需任何系统当机维护或人工干预。通过以上实现,HDFS可以做到在不停止服务的情况下实时地加入新的服务器作为分布式文件系统的容量升级,不需要人工干预文件的重分布。分布式数据库HBase简介分布式数据库HBase的特点和优势HBase是一个面向列的实时分布式数据库。HBase不是一个关系型数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性。传统关系型数据库在上世纪七十年代为交易系统设计,以满足数据一致性(ACID)为目标,并没有考虑数据规模扩大时的扩展性,以及系统故障时的可用性。虽然经过多年的技术发展,产生了一些对关系性数据库的修补(并行数据库),然而受限于理论和实现上的约束,扩展性从来没有超过40个服务器节点。而HBase从一开始就是为Terabyte到Petabyte级别的海量数据存储和高速读写而设计,这些数据要求能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。目录分布式文件系统HDFS简介...........................1分布式文件系统HDFS特性..................................1分布式数据库HBase简介.............................2分布式数据库HBase的特点和优势................2数据模型及其特点.......................................................3分布式计算框架MapReduce简介...............3MapReduce适合处理的任务................................4数据仓库Hive简介.........................................4Hive特点............................................................................5Hive系统结构.................................................................5数据处理Pig简介...........................................5日志收集工具Flume简介..............................5MapReduce应用场景.................................................6机器学习Mahout简介...................................6分布式协作服务ZooKeeper简介................6关系数据ETL工具Sqoop简介....................7英特尔Hadoop发行版产品与服务..............7为什么使用英特尔Hadoop发行版..............7英特尔Hadoop为企业应用而优化..............8高度容错HDFS文件系统假设系统故障(服务器、网络、存储故障等)是常态,而不是异常。因此通过多方面保证数据的可靠性。数据在写入时被复制多份,并且可以通过用户自定义的复制策略分布到物理位置不同的服务器上;数据在读写时将自动进行数据的校验,一旦发现数据校验错误将重新进行复制;HDFS系统在后台自动连续的检测数据的一致性,并维持数据的副本数量在指定的复制水平上。高可扩展性HBase是真正意义上的线性水平扩展。数据量累计到一定程度(可配置),HBase系统会自动对数据进行水平切分,并分配不同的服务器来管理这些数据。这些数据可以被扩散到上千个普通服务器上。这样一方面可以由大量普通服务器组成大规模集群,来存放海量数据(从几个TB到几十PB的数据)。另一方面,当数据峰值接近系统设计容量时,可以简单通过增加服务器的方式来扩大容量。这个动态扩容过程无需停机,HBase系统可以照常运行并提供读写服务,完全实现动态无缝无宕机扩容。2ClientNameNodeMasterDatareadDatawriteMetadataopscreatefile,getblocklocations,...Metadatanamespace,replicas,.../foo/bar,block1-node1,node3,node6...DataReplicationDataReplication...Slaves1DataNode52DataNode531DataNode53Blockassignment英特尔Hadoop发行版写入数据,这些数据就保证被持久化并被冗余复制,整个系统的高可用性得到保证。HBase是一个面向列的、稀疏的、分布式的、持久化存储的多维排序映射表(Map)。表的索引是行关键字、列族名(ColumnFamily)、列关键字以及时间戳;表中的每个值都是一个未经解析的字节数组。面向列:指的是同一个列族里所有数据都存放在一个文件中,从而在读写时有效降低磁盘I/O的开销,并且由于类似类型的数据存放在一起,提高了压缩比。经过压缩后的数据容量通常达到原来的1/3到1/5,极大节省了存储空间。多维表:这是对传统二维关系表的极大扩充。传统二维表有两维:行和列。列在设计表结高性能HBase的设计目的之一是支持高并发用户数的高速读写访问。这是通过两方面来实现的。首先数据行被水平切分并分布到多台服务器上,在大量用户访问时,访问请求也被分散到了不同的服务器上,虽然每个服务器的服务能力有限,但是数千台服务器汇总后可以提供极高性能的访问能力。其次,HBase设计了高效的缓存机制,有效提高了访问的命中率,提高了访问性能。高可用性HBase建立在HDFS之上。HDFS提供了数据自动复制和容错的功能。HBase的日志和数据都存放在HDFS上,即使在读写过程中当前服务器出现故障(硬盘、内存、网络等故障),日志也不会丢失,数据都可以从日志中自动恢复。HBase系统会自动分配其他服务器接管并恢复这些数据。因此一旦成功构时必须预先固定,而行可以动态增加,也就是说有一个维度可动态改变。HBase的多维表有四维,列族需要在设计表结构时事先确定,而行、列、时间维都可以动态增加。也就是说有三个维度可动态改变。这种结构非常适合用来表述有嵌套关系的数据。另外,动态增删列的能力也给很多业务带来便利,特别是这些业务在不停的演化,需要的列字段也在不停的增加,多维表结构可以随时进行改变以适应业务发展需求。稀疏表:由于多维表的列可以动态增加,必然导致不同行相同列的数据大部分为空,也就是说这个表是稀疏的。不像传统关系型数据库,HBase不存放空值,只存放有内容的表格单元(cell),因此可以支持超大稀疏表,而不会带来任何开销。这对传统的表结构设计也带来了观念上的大改变。TimeStampRowKey139-1223-3912_201103t11t3t17.........Owner:infobill:type:voicetotalbalance3gsmswlanspecialgprsColumnFamilyColumns86150Value..................MiceMichael数据模型及其特点MapReduce是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。与传统数据仓库和分析技术相比,MapReduce适合处理各种类型的数据,包括结构化、半结构化和非结构化数据。数据量在TB和PB级别,在这个量级上,传统方法通常已经无法处理数据。MapReduce将分析任务分为大量的并行Map任务和Reduce汇总任务两类。Map任务运行在多个服务器上。目前部署的最大集群有4000个服务器。分布式计算框架MapReduce简介英特尔Hadoop发行版3MapReduce适合处理的任务MapReduce框架的核心优势:1.高度可扩展,可动态增加/削减计算节点,真正实现弹性计算。2.高容错能力,支持任务自动迁移、重试和预测执行,不受计算节点故障影响。3.公平调度算法,支持优先级和任务抢占,兼顾长/短任务,有效支持交互式任务。4.就近调度算法,调度任务到最近的数据节点,有效降低网络带宽。5.动态灵活的资源分配和调度,达到资源利用最大化,计算节点不会出现闲置和过载的情况;同时支持资源配额管理。6.经过大量实际生产环境使用和验证,最大集群规模在4000个计算节点。PartitionedInputGroupedIntermediateResultsK‘,v’[]AggregatedOutputMapk,vk’,v’Groupk’,v’byk’Reducek’,v’[]v”DATAMAPMAPMAPMAPRECEDUHive是一种建立在Hadoop之上的数据仓库架构。它提供了:•一套方便的实施数据抽取(ETL)的工具。•一种让用户对数据描述其结构的机制。•支持用户对存储在Hadoop中的海量数据进行查询和分析的能力。Hive的基本特点是它采用HDFS进行数
本文标题:英特尔Hadoop大数据解决方案白皮书
链接地址:https://www.777doc.com/doc-6120673 .html