您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据技术原理和应用
第四章分布式数据库HBase提纲4.1概述4.2HBase访问接口4.3HBase数据模型4.4HBase的实现原理4.5HBase运行机制4.6HBase应用方案4.7HBase编程实践4.1概述•4.1.1从BigTable说起•4.1.2HBase简介•4.1.3HBase与传统关系数据库的对比分析Google云计算技术具体包括:•Google分布式文件系统GFS、•分布式计算编程模型MapReduce、•分布式锁服务Chubby•分布式数据存储系统Bigtable等。4.1.1从BigTable说起需要存储的数据种类繁多:Google目前向公众开放的服务很多,需要处理的数据类型也非常多。包括URL、网页内容、用户的个性化设置在内的数据都是Google需要经常处理的海量的服务请求:Google运行着目前世界上最繁忙的系统,它每时每刻处理的客户服务请求数量是现有商用数据库根本无法承受的。挑战Google在数据存储访问方面当时面临的挑战BigTable设计目标基本目标高可用性能确保几乎所有的情况下系统都可用广泛的适用性能满足系列Google产品简单性底层系统简单性既可减少系统出错概率,也为上层应用开发带来便利很强的可扩展性根据需要随时可以加入或撤销服务器4.1.1从BigTable说起BigTable是一个分布式数据存储系统,起初用于解决典型的互联网搜索问题,可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、高性能和高可用性等特点。BigTable在互联网搜索方面的例子:1爬虫持续不断地抓取新页面,这些页面每页一行地存储到BigTable里2MapReduce计算作业运行在整张表上,生成索引,为网络搜索应用做准备3用户发起网络搜索请求4网络搜索应用查询建立好的索引,从BigTable得到网页5搜索结果提交给用户目前,BigTable为谷歌旗下的搜索、地图、财经、打印、以及社交网站Orkut、视频共享网站YouTube和博客网站Blogger等业务提供技术支持。Bigtable数据模型Bigtable是一个分布式多维映射表,表中的数据通过一个行关键字(RowKey)、一个列关键字(ColumnKey)以及一个时间戳(TimeStamp)进行索引Bigtable对存储在其中的数据不做任何解析,一律看做字符串Bigtable的存储逻辑可以表示为:(row:string,column:string,time:int64)→stringBigtable数据模型行Bigtable的行关键字可以是任意的字符串,但是大小不能超过64KB。Bigtable和传统的关系型数据库有很大不同,它不支持一般意义上的事务,但能保证对于行的读写操作具有原子性(Atomic)表中数据都是根据行关键字进行排序的,排序使用的是词典序。一个典型实例,其中com.cnn.就是一个行关键字。不直接存储网页地址而将其倒排是Bigtable的一个巧妙设计。带来两个好处:同一地址域的网页会被存储在表中的连续位置,有利于用户查找和分析倒排便于数据压缩,可以大幅提高压缩率“内容:”“锚点:cnnsi.com”“锚点:my..look.ca”“com.cnn.”“html…”“html…”“html…”“CNN.com”“CNN”t3t5t6t8t9由于规模的问题,单个的大表不利于数据处理,因此Bigtable将一个表分成了多个子表,每个子表包含多个行。子表是Bigtable中数据划分和负载均衡的基本单位。数据模型列Bigtable并不是简单地存储所有的列关键字,而是将其组织成所谓的列族。每个族中的一列或者多列数据都属于同一个类型(如图中,内容、锚点是不同的族)。同族的数据会被压缩在一起保存族是Bigtable中访问控制(AccessControl)基本单元,也就是说访问权限的设置是在族这一级别上进行的“内容:”“锚点:cnnsi.com”“锚点:my..look.ca”“com.cnn.”“html…”“html…”“html…”“CNN.com”“CNN”t3t5t6t8t9数据模型时间戳为了简化不同版本的数据管理,Bigtable目前提供了两种设置:一种是保留最近的N个不同版本,图中数据模型采取的就是这种方法,它保存最新的三个版本数据。另一种就是保留限定时间内的所有不同版本,比如可以保存最近10天的所有不同版本数据。失效的版本将会由Bigtable的垃圾回收机制自动处理Google的很多服务比如网页检索和用户的个性化设置等都需要保存不同时间的数据,这些不同的数据版本必须通过时间戳来区分。系统架构Bigtable主服务器Bigtable客户端Bigtable客户端程序库Bigtable子表服务器Bigtable子表服务器Bigtable子表服务器处理数据处理数据处理数据GoogleWorkQueueGFSChubby执行Open()操作负责故障处理及监控保存子表数据及日志负责元数据存储及主服务器的选择执行元数据操作及负载平衡读/写元数据操作Bigtable数据库主要由三个部分组成:客户端程序库(ClientLibrary),一个主服务器(MasterServer)和多个子表服务器(TabletServer)。在Bigtable中,整个数据库看成一张大表,并会划分为许多基本子表(bigtable中最小的处理单位)。子表服务器存储实际数据,并负责处理数据的读写,并在子表过大时进行拆分。主服务器负责将子表分配到各子表服务器、检测新增和过期的子表服务器、平衡子表服务器之间的负载、数据模式的改变(例如创建表)等。Chubby作用:1.选取并保证同一时间内只有一个主服务器(MasterServer);2.获取子表的位置信息;3.保存Bigtable的访问控制列表。客户访问Bigtable服务时,首先要利用其库函数执行Open()操作来打开一个锁(实际上就是获取了文件目录),锁打开以后客户端就可以和子表服务器进行通信和许多具有单个主节点分布式系统一样,客户端主要与子表服务器通信,几乎不和主服务器进行通信,这使得主服务器的负载大大降低4.1.2HBase简介HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表ETL工具BI报表RDBMSPigHiveSqoopMapReduceHBaseHDFS(HadoopDistributedFileSystem)ZookeeperAvroHadoop生态系统Hadoop生态系统中HBase与其他部分的关系Hadoop4.1.2HBase简介关系数据库已经流行很多年,为什么需要HBase?传统通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题传统关系数据库在数据结构变化时一般需要停机维护;空列浪费存储空间因此,出现了一类面向半结构化数据存储和访问的高可扩展、低写入/查询延迟的系统HBase。目前,HBase已经成功应用于互联网服务领域和传统行业的众多在线式数据分析处理系统中。4.1.3HBase与传统关系数据库的对比分析HBase与传统的关系数据库的区别主要体现在以下几个方面:(1)数据类型:关系数据库具有丰富的数据类型和存储方式,HBase则采用了更加简单的数据模型,它把数据存储为未经解释的字符串。(2)数据操作:关系数据库中包含了丰富的操作,其中会涉及复杂的多表连接。HBase操作则不存在复杂的表与表之间的关系,只有简单的插入、查询、删除、清空等,因为HBase在设计上就避免了复杂的表和表之间的关系。(3)存储模式:关系数据库是基于行模式存储的。HBase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的。4.1.3HBase与传统关系数据库的对比分析(4)数据索引:关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据访问性能。HBase只有一个索引——行键(5)数据维护:在关系数据库中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。而在HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有的版本仍然保留(6)可伸缩性:关系数据库水平扩展空间有限。相反,HBase就是为了实现灵活的水平扩展而开发的,能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩4.2HBase访问接口HBase访问接口类型特点场合NativeJavaAPI最常规和高效的访问方式适合HadoopMapReduce作业并行批处理HBase表数据HBaseShellHBase的命令行工具,最简单的接口适合HBase管理使用ThriftGateway利用Thrift序列化技术,支持C++、PHP、Python等多种语言适合其他异构系统在线访问HBase表数据RESTGateway解除了语言限制支持REST风格的HttpAPI访问HBasePig使用PigLatin流式编程语言来处理HBase中的数据适合做数据统计Hive简单当需要以类似SQL语言方式来访问HBase的时候4.3HBase数据模型•4.3.1数据模型概述•4.3.2数据模型相关概念•4.3.3数据坐标•4.3.4概念视图•4.3.5物理视图•4.3.6面向列的存储4.3.1数据模型概述•HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳•每个值是一个未经解释的字符串,没有数据类型•用户在表中存储数据,每一行都有一个可排序的行键和任意多的列•表在水平方向由一个或者多个列族组成,一个列族中可以包含任意多个列,同一个列族里面的数据存储在一起•列族支持动态扩展,可以很轻松地添加一个列族或列,无需预先定义列的数量以及类型,所有列均以字符串形式存储,用户需要自行进行数据类型转换•HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有的版本仍然保留(这是和HDFS只允许追加不允许修改的特性相关的)4.3.2数据模型相关概念•表:HBase采用表来组织数据,表由行和列组成,列划分为若干个列族•行:每个HBase表都由若干行组成,每个行由行键(rowkey)来标识。•列族:一个HBase表被分组成许多“列族”(ColumnFamily)的集合,它是基本的访问控制单元•列限定符:列族里的数据通过列限定符(或列)来定位•单元格:在HBase表中,通过行、列族和列限定符确定一个“单元格”(cell),单元格中存储的数据没有数据类型,总被视为字节数组byte[]•时间戳:每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引4.3.3数据坐标•HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格,因此,可以视为一个“四维坐标”,即[行键,列族,列限定符,时间戳]键值[“201505003”,“Info”,“email”,1174184619081]“xie@qq.com”[“201505003”,“Info”,“email”,1174184620720]“you@163.com”4.3.4逻辑视图HBase数据的逻辑视图行键时间戳列族contents列族anchorcom.cnn.=”CNN”t4anchor:my.look.ca=CNN.comt3contents:html=html...t2contents:html=html...t1contents:html=html...4.3.5物理视图HBase数据的物理视图:基于列的存储行键时间戳列族contentscom.cnn.=html...t2contents:html=html...t
本文标题:大数据技术原理和应用
链接地址:https://www.777doc.com/doc-1450517 .html