您好,欢迎访问三七文档
《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn厦门大学计算机科学系2015年版林子雨厦门大学计算机科学系E-mail:ziyulin@xmu.edu.cn主页:(PPT版本号:2015年6月第1.0版)《大数据技术原理与应用》:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn提纲•5.1NoSQL简介•5.2NoSQL兴起的原因•5.3NoSQL与关系数据库的比较•5.4NoSQL的四大类型•5.5NoSQL的三大基石•5.6从NoSQL到NewSQL数据库•本章小结欢迎访问《大数据技术原理与应用》教材官方网站::21世纪高等教育计算机规划教材《大数据技术原理与应用——概念、存储、处理、分析与应用》(2015年6月第1版)厦门大学林子雨编著,人民邮电出版社ISBN:978-7-115-39287-9《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.1NoSQL简介通常,NoSQL数据库具有以下几个特点:(1)灵活的可扩展性(2)灵活的数据模型(3)与云计算紧密融合最初表示“反SQL”运动用新型的非关系数据库取代关系数据库NotonlySQL现在表示关系和非关系型数据库各有优缺点彼此都无法互相取代概念演变《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.2NoSQL兴起的原因1、关系数据库已经无法满足Web2.0的需求。主要表现在以下几个方面:(1)无法满足海量数据的管理需求(2)无法满足数据高并发的需求(3)无法满足高可扩展性和高可用性的需求2、关系数据库的关键特性包括完善的事务机制和高效的查询机制。但是,关系数据库引以为傲的两个关键特性,到了Web2.0时代却成了鸡肋,主要表现在以下几个方面:(1)Web2.0网站系统通常不要求严格的数据库事务(2)Web2.0并不要求严格的读写实时性(3)Web2.0通常不包含大量复杂的SQL查询《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.3NoSQL与关系数据库的比较比较标准RDBMSNoSQL备注数据库原理完全支持部分支持RDBMS有关系代数理论作为基础NoSQL没有统一的理论基础数据规模大超大RDBMS很难实现横向扩展,纵向扩展的空间也比较有限,性能会随着数据规模的增大而降低NoSQL可以很容易通过添加更多设备来支持更大规模的数据数据库模式固定灵活RDBMS需要定义数据库模式,严格遵守数据定义和相关约束条件NoSQL不存在数据库模式,可以自由灵活定义并存储各种不同类型的数据查询效率快可以实现高效的简单查询,但是不具备高度结构化查询等特性,复杂查询的性能不尽人意RDBMS借助于索引机制可以实现快速查询(包括记录查询和范围查询)NoSQL没有索引,虽然NoSQL可以使用MapReduce来加速查询,但是,在复杂查询方面的性能仍然不如RDBMS表5-1NoSQL和关系数据库的简单比较《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.3NoSQL与关系数据库的比较比较标准RDBMSNoSQL备注一致性强一致性弱一致性RDBMS严格遵守事务ACID模型,可以保证事务强一致性NoSQL放松对事务ACID四性的要求,而是遵守BASE模型,只能保证最终一致性数据完整性容易实现很难实现任何一个RDBMS都可以很容易实现数据完整性,比如通过主键或者非空约束来实现实体完整性,通过主键、外键来实现参照完整性,通过约束或者触发器来实现用户自定义完整性但是,在NoSQL数据库却无法实现扩展性一般好RDBMS很难实现横向扩展,纵向扩展的空间也比较有限NoSQL在设计之初就充分考虑了横向扩展的需求,可以很容易通过添加廉价设备实现扩展可用性好很好RDBMS在任何时候都以保证数据一致性为优先目标,其次才是优化系统性能,随着数据规模的增大,RDBMS为了保证严格的一致性,只能提供相对较弱的可用性NoSQL任何时候都能提供较高的可用性表5-1NoSQL和关系数据库的简单比较(续)《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.3NoSQL与关系数据库的比较比较标准RDBMSNoSQL备注标准化是否RDBMS已经标准化(SQL)NoSQL还没有行业标准,不同的NoSQL数据库都有自己的查询语言,很难规范应用程序接口技术支持高低RDBMS经过几十年的发展,已经非常成熟,Oracle等大型厂商都可以提供很好的技术支持NoSQL在技术支持方面仍然处于起步阶段,还不成熟,缺乏有力的技术支持可维护性复杂复杂RDBMS需要专门的数据库管理员(DBA)维护NoSQL数据库虽然没有DBMS复杂,也难以维护表5-1NoSQL和关系数据库的简单比较(续)《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.4NoSQL的四大类型NoSQL数据库虽然数量众多,但是,归结起来,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库Key_1Key_2Key_3Key_4Key_5Key_6Key_7Key_8Value_1Value_2Value_1Value_3Value_2Value_1Value_4Value_3键值数据库ColumnName-3ColumnValue-3ColumnName-2ColumnValue-2ColumnName-1ColumnValue-1ColumnName-4ColumnValue-4ColumnName-5ColumnValue-5ColumnName-6ColumnValue-6DatasetColumn-Family-1Column-Family-2Column-Family-1RowKey-1RowKey-2列族数据库《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.4NoSQL的四大类型NoSQL数据库虽然数量众多,但是,归结起来,典型的NoSQL数据库通常包括键值数据库、列族数据库、文档数据库和图形数据库Key-ValueNode1Key-ValueNode2Key-ValueNode3Key-Value1Key-Value2Key-Value2Key-Value1图形数据库DatasetDocument_id-1Document_id-2Document_id-3Document_id-4Document-1Document-2Document-3Document-4文档数据库《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.4.1键值数据库相关产品Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached数据模型键/值对典型应用内容缓存,比如会话、配置文件、参数、购物车等优点扩展性好,灵活性好,大量写操作时性能高缺点无法存储结构化信息,条件查询效率较低使用者百度云数据库(Redis)、GitHub(Riak)、BestBuy(Riak)、Twitter(Redis和Memcached)、StackOverFlow(Redis)、Instagram(Redis)、Youtube(Memcached)、Wikipedia(Memcached)《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.4.2列族数据库相关产品BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS数据模型列族典型应用分布式数据存储与管理优点查找速度快,可扩展性强,容易进行分布式扩展,复杂性低缺点功能较少,大都不支持强事务一致性使用者Ebay(Cassandra)、Instagram(Cassandra)、NASA(Cassandra)、Twitter(CassandraandHBase)、Facebook(HBase)、Yahoo!(HBase)《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.4.3文档数据库相关产品CouchDB、MongoDB、Terrastore、ThruDB、RavenDB、SisoDB、RaptorDB、CloudKit、Perservere、Jackrabbit数据模型版本化的文档典型应用存储、索引并管理面向文档的数据或者类似的半结构化数据优点性能好,灵活性高,复杂性低,数据结构灵活缺点缺乏统一的查询语法使用者百度云数据库(MongoDB)、SAP(MongoDB)、Codecademy(MongoDB)、Foursquare(MongoDB)、NBCNews(RavenDB)《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.4.4图形数据库相关产品Neo4J、OrientDB、InfoGrid、InfiniteGraph、GraphDB数据模型图结构典型应用应用于大量复杂、互连接、低结构化的图结构场合,比如社交网络、推荐系统等优点灵活性高,支持复杂的图形算法,可用于构建复杂的关系图谱缺点复杂性高,只能支持一定的数据规模使用者Adobe(Neo4J)、Cisco(Neo4J)、T-Mobile(Neo4J)《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.5NoSQL的三大基石NoSQLCAPBASE最终一致性《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.5.1CAP所谓的CAP指的是:C(Consistency):一致性,是指任何一个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是一致的;A:(Availability):可用性,是指快速获取数据,可以在确定的时间内返回操作结果;P(ToleranceofNetworkPartition):分区容忍性,是指当出现网络分区的情况时(即系统中的一部分节点无法和其他节点进行通信),分离的系统也能够正常运行。《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.5.1CAPCAP理论告诉我们,一个分布式系统不可能同时满足一致性、可用性和分区容忍性这三个需求,最多只能同时满足其中两个,正所谓“鱼和熊掌不可兼得”。C(一致性)A(可用性)P(分区容忍性)CACPAP《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.5.1CAP(a)初始状态一个牺牲一致性来换取可用性的实例P1M1P2M2V1=val0V2=val0《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.5.1CAP(b)正常执行过程一个牺牲一致性来换取可用性的实例P1M1V1=val0val1P2M2123P1M1传播新值val1P2M2P1M1P2M2val1V2=val0V1=val1V2=val0V1=val1V2=val1进程P1把副本V1的值从val0更新为val1副本V1的新值val1被传播给副本V2进程P2从副本V2中读取到更新后的值val1《大数据技术原理与应用》厦门大学计算机科学系林子雨ziyulin@xmu.edu.cn5.5.1CAPP1M1V1=val0val1P2M2123P1M1传播新值val1
本文标题:Chapter5-厦门大学-林子雨-大数据技术原理与应用-第五章-NoSQL数据库31
链接地址:https://www.777doc.com/doc-24176 .html