您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 人事档案/员工关系 > 11章_分布式数据库系统的发展趋势_
徐俊刚(xujg@gucas.ac.cn)2008年2月——2008年6月1.并行数据库服务器与分布式数据库系统2.分布式知识库系统3.分布式面向对象数据库分布式数据库系统的发展趋势第11章•70年代的数据库机,现代的数据库服务器•数据库服务器的优势–功能专一–专用OS,DBMS与OS紧耦合,提高DBMS的总体性能–适于现实世界的分布环境–充分利用先进的硬件体系结构•缺点–额外的通信开销–因此要求服务器提供较高层次的接口,关系模型操作是面向集合的操作,所以成为服务器模型的首选1.1数据库服务器1并行数据库服务器与分布式数据库系统用户用户接口查询处理与数据库服务器接口与应用服务器接口数据库功能用户DBDB应用服务器数据服务器网络通信信道数据服务器方案1.1数据库服务器1并行数据库服务器与分布式数据库系统•集中式服务器结构–明确分工,减少工作站与服务器之间的通信–工作站对语言预处理(完整性检查,安全控制)–工作站能访问数据目录–服务器管理和更新目录,工作站只读目录–优化DBMS和OS(软方法),或者使用多处理机(硬方法)解决服务器瓶颈问题1.1数据库服务器1并行数据库服务器与分布式数据库系统接口数据库功能DBDB数据服务器逻辑通信网络集中式服务器结构………工作站1.1数据库服务器1并行数据库服务器与分布式数据库系统•分布式服务器结构–两种查询处理方式•数据查询先提交到本地服务器,由其负责所有的分布式查询处理•每个应用服务器上也都可以由分布式查询处理器和数据目录操作器,直接访问远程数据服务器1.1数据库服务器1并行数据库服务器与分布式数据库系统–数据服务器专门用于分布式和集中式数据库管理•在传统机器结构上,在分布式OS上执行DBMS和分布式DBMS•基于特定计算机系统结构实现分布式数据库操作系统1.1数据库服务器1并行数据库服务器与分布式数据库系统DBDB数据服务器1逻辑通信网络分布式服务器结构………工作站分布式DBMS局部管理功能接口DBDB数据服务器n…分布式DBMS局部管理功能接口……1.1数据库服务器1并行数据库服务器与分布式数据库系统•冯.诺依曼型计算机结构的局限–不能发挥应用中普遍存在的内在的可并行处理特性•关系操作本身的可并行性,JOIN中的多个子查询,单个查询中的多步操作–数据库管理性能受到I/O瓶颈的影响•内存速度比硬盘速度快1000倍•增加带宽提高磁盘存取的并行性•使用并行可存取的多个小磁盘1.2并行数据服务器1并行数据库服务器与分布式数据库系统•多处理机结构–通过高速通信介质连接多个可独立处理的单元–通过分配,查询操作和子操作到不同的处理单元,以并行执行方式完成互连查询,内部查询,及各种内部操作1.2并行数据服务器1并行数据库服务器与分布式数据库系统•类型–完全共享资源结构•对每个数据项的存取都要经过公共通信线路,引起通信瓶颈•类似于集中式DBMS,差别是数据库操作可以并行处理–完全不共享资源结构•高功能计算机系统可以由多个较小的系统替代•每个站点都要实现全局数据目录,分布数据定义和控制,分布查询处理和分布式事务管理•站点不能运行应用程序1.2并行数据服务器1并行数据库服务器与分布式数据库系统处理机1处理机n高速互联总线…………磁盘1磁盘n内存1内存n…完全共享资源系统结构1.2并行数据服务器1并行数据库服务器与分布式数据库系统处理机1处理机n高速互联总线…………磁盘1磁盘n内存1内存n完全不共享资源系统结构……1.2并行数据服务器1并行数据库服务器与分布式数据库系统•并行数据服务器数据定位–类似于分布式数据库中的数据片段定位–分簇(Declustering)数据的水平分片•提高响应速度和内存查询并行度–聚簇(Clustering)聚集关系的片段•综合查询或减少系统总体运行代价–程序应在数据存储的站点上运行–DDBS中DBA根据对片段的使用情况检测,进行调整,包括移动片段和重组。1.2并行数据服务器1并行数据库服务器与分布式数据库系统•并行数据服务器与DDBS的不同–应用目标不同•并行中用户不专门使用某个站点,所以不要求最大化本地性处理–实现方式不同•站点间高速网互连,传输代价小,可以调节站点间工作负载–各站点地位不同•不存在全局应用和局部应用•各站点完全不独立,处理时只能发挥协同作用,无局部应用1.2并行数据服务器1并行数据库服务器与分布式数据库系统•数据定位方法–全分簇:片段分布到系统中所有有磁盘的站点•散列算法分片:查询时,与选择属性精确匹配的子查询得以在一个站点上处理,所有其它子查询在其他站点处理,适于大范围多用户工作负载•但复杂查询(多个连接)时,聚簇方法较好–可变分簇•依据“分簇度”对关系分片•分簇度是关系数据分片的站点数量,是关系大小和存取频率的函数•这种方法比聚簇和分簇更加复杂,因为数据分布的改变可能导致结构调整1.2并行数据服务器1并行数据库服务器与分布式数据库系统•关联查询–传统系统中,关联存取是由查询处理器在编译时利用数据目录完成–并行系统中,采用“全局索引”复制到每一个站点•全局索引–能确定关系在各站点分布的二级索引•主聚簇:关于关系名•次聚簇:关于关系中的某些属性–基于散列法或B树实现1.2并行数据服务器1并行数据库服务器与分布式数据库系统•例:工程数据库E(ENO,ENAME,DEPT,TITLE)S(TITLE,SAL)J(JNO,JNAME,BUDGET)G(ENO,JNO,RESP,DUR)•全局索引(查询ENO=‘E5’)–第一级关于关系名索引映射到E关系的ENO属性索引–第二级索引进一步映射值E5到站点j1.2并行数据服务器1并行数据库服务器与分布式数据库系统关于关系名的索引…………PEG关系E中关于ENO的索引…………站点1(E1至E2)站点j(E3至E6)站点n(E7至E8)全局索引例子•本地索引(次簇索引)–映射一个关系到站点的一组磁盘块上–类似于全局索引–第一级关于关系名–第二级关于属性索引(映射簇值E5到91磁盘块)•实验结果–短事务负载下,分簇数量增加,事务吞吐量增加–多连接复杂事务负载下,太细分簇降低吞吐量1.2并行数据服务器1并行数据库服务器与分布式数据库系统关于关系名的索引…………PEG关系E中关于ENO的索引……磁盘块24(E3至E4)磁盘块91(E5至E6)在站点j上的本地索引例子•基于逻辑的数据库–逻辑数据库,推理数据库,专家DBMS,演绎DBMS,知识库等•知识库–存储常用知识的内涵数据库和存储事实的外延数据库的联合体–内涵数据库•公理(命题)和规则等–外延数据库•基本数据2.1知识库2分布式知识库系统•知识表示–产生式规则–框架(Frames)–语义网络(SemanticNet)–数学逻辑•知识库语言–Prolog–Datalog2.1知识库2分布式知识库系统•支持面向对象特征的数据库•对象•封装•持久对象•对象关系•关系对象3.1分布式面向对象数据库定义3分布式面向对象数据库•数据分布–封装带来了复杂性•水平分段–简单属性和方法上的分段•可以根据定义在该类属性上的谓词分段,C被分为C1,C2,…,Cn.•若C1,C2,…,Cn互不相交,则可以将C定义为没有实例的超类,Ci是其子类•若C1,C2,…,Cn不是互不相交,那么没有一个简单方法来处理3.2分布式面向对象数据库水平分段3分布式面向对象数据库–例ClassEngineasObjectAttributeno-cylinder:IntegerCapacity:RealHorsepower:Integer谓词:p1:Horsepower150p2:Horsepower150于是Engine分为Engine1和Engine2两个段3.2分布式面向对象数据库水平分段3分布式面向对象数据库–复杂属性:使用对象间的联系(如Owner-Member)信息分段–简单Method:当简单属性时,对象分段按简单属性方法分,Method在编译时确定,若对象被该Method使用则Method与该对象分在同一段,以获取极大化本地相关访问–复杂Method:要使用子类联系,聚集联系,Method调用联系等来处理,产生多个分段,然后再使用基于亲和力的方法来合并某些段3.2分布式面向对象数据库水平分段3分布式面向对象数据库•垂直分段–比水平分段更复杂,要考虑元类和分段类的子类间的子类型(Subtype)联系,分段类本身间的联系,Method的定位等等.•路径分段(PathPartition)–复合(Composite)对象上的表示成一个构成结构化索引的节点层次3.2分布式面向对象数据库垂直分段3分布式面向对象数据库•分配–涉及Method和类的分配–Method分配与类分配紧密相连–局部动作-局部对象不用处理–局部动作-远程对象两种处理方法•远程对象移动到动作站点•移动动作到相关的对象站点–远程动作-局部对象–远程函数(Function)-局部变量(Argument)3.1分布式面向对象数据库分配3分布式面向对象数据库•复制–单个对象,对象类,对象集合等都可以是复制的单位3.1分布式面向对象数据库定义3分布式面向对象数据库总结•并行数据库服务器与分布式数据库系统•分布式知识库系统•分布式面向对象数据库
本文标题:11章_分布式数据库系统的发展趋势_
链接地址:https://www.777doc.com/doc-3096621 .html