您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 基于前缀编码XML查询新策略的研究
山东大学硕士学位论文基于前缀编码XML查询新策略的研究姓名:王宁申请学位级别:硕士专业:计算机软件与理论指导教师:董国庆20080405基于前缀编码XML查询新策略的研究作者:王宁学位授予单位:山东大学相似文献(10条)1.学位论文李懿基于原生XML数据库的研究及引擎的实现2006随着互联网的快速发展,扩展标记语言(XML)由于支持半结构化数据,能够自描述、平台无关,已经迅速成为整合异构数据的标准。与此同时,对大量不断涌现的XML数据的有效存储也成为了研究的热点,短期内出现了多个存储XML数据的数据库产品。这其中既有老牌的关系数据库或面向对象数据库厂商,也有许多新兴的数据库公司。由于XML数据的自身特点,采用原生XML格式进行存储的原生XML数据库在web应用中相对其它数据库表现得更加高效,因而也受到了更为广泛的关注。但是,在原生XML数据库发展初期,至今还没有形成一个固定的模式规范,在存储结构、查询优化、索引机制和并发控制等方面都有着或多或少的问题。针对上述问题,本文对原生XML数据库进行了深入的研究、分析和归纳。并在此基础上提出了新的常驻内存原生XML数据库引擎——“myNXD”的实现。本文的主要研究工作包括以下几个方面:1.提出了特有的原生格式存储模型实现对XML文档的有效解析和存储。引擎在分析XML文档的DTD和Schema信息后获得相关的结构信息,并根据这些元数据解析XML文档,将数据以原始格式写入内存供进一步的查询操作。2.改进了现有原生XML数据库的索引技术,采用了简单高效的路径索引和值索引来查找定位XML节点数据,提高数据库的查询效率。3.通过不同API来支持多种查询策略(如自底向上、自顶向下),实现对XML树结构数据的查询遍历。结合不同的索引,“myNXD”引擎可用于评估不同查询策略在检索XML数据时的性能,从而根据不同查询条件采取不同策略以优化查询。4.分析了处理并发事务时现有XML数据锁机制的问题,并提出了自己的XML数据上锁规则。最后,通过总结全文再次分析“myNXD”引擎的优势所在,并提出有待改进的地方。2.期刊论文田磊.覃征.衡星辰.邵利平.TianLei.QinZheng.HengXingchen.ShaoLiping基于本体的多源异构XML数据近似查询方法-西安交通大学学报2007,41(6)提出了一种基于本体的面向多源异构可扩展置标语言(XML)的近似查询方法.该方法将传统的基于查询模式树松弛的近似查询策略与基于本体的XML数据集成思想相融合,首先建立文档类型定义结构与全局模式的映射模型(PTO),再将PTO与近似查询领域的松弛操作、打分机制相结合,提出了一种新的XML近似查询算法--OAXQ.这样,用户在全局模式下的查询语言不再是Xpath查询表达式,而是对象查询语言的一个简单子集,松弛的产生不再依靠查询模式树的变换,而是通过一系列映射规则转化而成.汽车外型的智能设计实验表明,OAXQ算法的查询速度比单纯基于查询模式树松弛策略的静态有序选择算法平均提高了20倍,查询准确度提高了2%~24%.3.学位论文黄峰一种原生XML数据库—Xindice的研究与改进2007随着万维网的飞速发展,XML的应用范围不断扩大,支持XML的数据库成为众人瞩目的焦点。关系型数据库不能很好地支持XML。关系型数据库将XML转换成二维表的形式存储,但XML,与二维表存储形式的转换存在性能问题。原生(Native)XML数据库是当前数据库领域的研究热点之一。XML文档在NativeXML数据库中的存储和查询策略,是十分重要的问题。本文以一个开放源代码的NativeXML,数据库产品—Xindice为对象,深入分析了它的分层存储模型,研究了它的页面存储策略以及B树索引结构。在此基础上,并阐明了Xindice存储策略和查询策略存在的不足。针对这些不足,本文作了以下分析研究工作。在存储策略方面,当集合中加入了新的XML文档时,Xindice数据库分配“空闲”页面用于存储文档的数据,如果没有空闲页面,则创建新的页面;但是系统在删除XML文档时,仅仅将其占用的页面标记为“空闲”而并不释放其占用的空间。随着文档的插入和删除,页面文件占用的磁盘空间将会不断的增大。本文在实验的基础之上,分析了Xindice数据库存储策略在“空闲”页面管理上存在不足的原因,提出并实现了尾部页面截断策略和页面移动策略,释放了“空闲”页面占用的磁盘空间,提高了系统对磁盘资源的利用率。而针对页面移动策略页面移动次数过多,本文又提出了尾部页面移动策略,减少了释放“空闲”页面所需要的时间。在查询策略方面,Xindice数据库的查询语言是XPath,不支持XQuery查询语言。而XPath的查询功能有限,如不能分组、排序、连接等,不能对多个文档进行联合查询,影响了Xindice数据库查询上的灵活性。本文设计了XQuery表达式的文法,利用JavaCC工具和JJTree工具对XQuery表达式的文法生成词法语法分析器,用来识别输入的XQuery表达式的语法结构,并生成相应的语法树。根据此语法树,对构成该查询的XQuery表达式的各子句分别进行相应的查询处理,得到XML文档的最终查询结果,实现了XQuery查询,提高了Xindice数据库的查询上的灵活性。最后本文通过实例验证了本文设计的XQuery查询在Xindice数据库中的有效性。4.学位论文闰伟电子政务信息资源元数据库的研究与应用2005本文通过研究政务信息资源元数据的内容和组织,建立基于元数据的政务信息资源描述规范,构建政务信息资源元数据库,从而使电子政务中的互联互通、信息共享、业务协同成为可能。全文主要内容如下:1.首先分析了当前流行的信息资源发现访问技术,在总结了这些技术方法各自的优缺点的基础上,提出了基于元数据的政务资源注册和目录服务体系,该体系既利用了目录服务主题分类清晰的优点,又利用注册机制加强了政务信息资源的管理。2.研究了信息资源的采集方法和结构化表示技术,使得信息资源通过元数据的方式得以被描述。文章通过分析研究国际最有影响力的政务元数据标准,提出了面向注册管理和目录服务的上海市政务信息资源描述规范建议。3.政务信息资源元数据的存储和管理必须符合政务信息资源元数据的特点和应用的客观需求。论文在分析当前XML数据的存储和查询技术的基础上,提出了元数据库的存储策略、索引查询策略,提出了一个构建政务信息资源元数据库的总体设计方案。从预研和原型试验的目的出发,原型系统采用关系数据库和文件系统相结合的方式来构建元数据库,阐述了一种基于元数据的政务信息资源注册和目录服务实现的实验性的方法。最后,对基于NXD数据库来实现元数据库进行了一定的探索研究,并比较了这两种实现方法的优缺点。5.学位论文刘波XML数据智能管理若干关键技术研究2008随着海量XML数据的涌现与传递,XML已成为互联网上信息表示和数据交换的一个重要标准,继而产生了对XML数据管理的需求,如何有效地表示、查询与挖掘这些XML数据已经成为当前XML数据管理领域遇到的一个重要挑战。针对目前XML数据管理研究现状中存在的问题与不足,本文研究了XML数据模型、群体智能、模式识别、神经网络、数据挖掘与智能计算等原理与方法,在原型系统XBASE上提出了一系列基于XML键的数据清洗、查询、数据挖掘等新的智能管理方法,同时探讨了XML重构的有效途径等问题。本文围绕XML数据的查询与数据挖掘等智能管理问题展开研究,研究内容和取得的成果主要体现在以下四方面:1.XML数据管理框架-XPDM的建立现有的XML数据模型存在着四个问题影响了XML数据的有效管理,即:(1)数据的异构:给多数据源集成带来许多困难,影响了信息查询的有效性;(2)数据的非一致性:由于数据约束的不完整性,常导致数据前后不一致,影响数据查询的准确性;(3)多数据源之间数据依赖关系的不确定性:影响数据之间的归并与查询;(4)语义标准的规范:由于XML正处于发展之中,许多规范还不完善,往往导致了查询语句的繁琐与混乱。针对以上问题,本文提出了一种以XML键构建的向量空间模型为基础、利用概率理论进行操作的海量XML数据管理框架-XPDM。该框架通过对XQuery1.0和XPath2.0数据模型XDM进行语义规范新扩充及XML数据矢量转换,较好地解决了以上四个问题。2.数据智能清洗与查询策略为了解决XML文档中的“脏数据”问题,通过引入XML键组合及XML向量模型,利用贝叶斯学习方法与马尔可夫链概率转移策略建立XML数据清洗过程的元数据模型,利用XML树相似性判定算法,提出了一种智能清洗XML数据的新方法,通过相应规则库的预定义完成XML数据的清洗;另外为了解决XML数据清洗检测繁锁及灵活性差的问题,提出了通过合理组合XML键、融入粒子群算法、结合隐马尔可夫模型信息抽取策略构建XML数据清洗优化算法;为了提高XML数据查询的智能性与有效性,通过采用启发式方法,结合XML半结构化的特点,将粒子算法与蚁群算法融入到海量XML数据概率查询上,并进行相应改进,实现了数据查询范围的并行处理能力与收敛效率的提高。3.XML数据智能挖掘策略互联网上已聚集了海量的XML数据,为了有效地对XML数据进行挖掘,本文从以下几个方面进行研究:(1)为了提高海量XML文档集的聚类质量,分别以粒子群算法与矩阵迭代自组织算法为基础,提出了基于粒子群的XML自适应混沌聚类算法和基于向量空间模型的矩阵迭代自组织XML辅助聚类算法;(2)为了提高海量XML文档集的并行处理能力,根据混沌原理,融入蚁群聚类算法,通过定义相应混沌适应度函数衡量蚂蚁与其邻域的相似程度,提出了一种基于混沌原理与蚁群聚类模型的XML分片算法;(3)针对XML数据的流动性和无限性等特点及质量检测存在的不足,提出构建XML键的矢量矩阵作为窗口,利用矢量积小波变换多级分解与重构,再结合最小二乘支持向量机构建双滑动窗口进行XML数据自适应监测算法,满足对XML数据进行网络传递的质量管理要求。4.XML智能重构策略为了更好地优化XML的语义规范,解决随着用户需求的变化以及时间的推移、XML数据结构也会发生变化这一问题,对XML重构进行了探测性研究。在XML文档片段重构的基础上,利用XML语义约束关系及XML路径层次性,再结合向量机原理与频繁模式的特点,提出了XML频繁模式树XFP-tree算法进行XML结构重构策略,有助于进一步保证XML的质量。6.期刊论文刘波.杨路明.雷刚跃.LIUBo.YANGLu-ming.LEIGang-yue基于蚁群算法的XML概率查询策略与算法优化-计算机工程2008,34(5)针对XML数据半结构化的特点及概率查询理论,结合蚁群算法,提出添加杂交算子和更新信息素的方法,该方法不仅能动态选择数据查询方向,而且能避免无效查询,扩大数据查询范围,提高收缩效率.模拟测试证明了该方法能优化XML查询.7.学位论文李林一种基于关系数据库的XML数据存储和查询的新策略2009随着Web技术及其应用的快速发展,XML已经成为万维网上信息表示和数据交换的一个重要的标准,对于Web上涌现的大量XML数据,如何有效地存储和查询XML数据已经成为XML研究方向关注的热点问题。而由于关系数据库是目前最成熟的一种数据管理技术,在各种存储和管理XML数据的方式中,关系数据库显然是一种可行而有前景的方式。但是由于XML数据结构化的特点,在关系模式上进行复杂的结构查询,往往要涉及多个关系表的连接以实现结构关系的判断,这都增加了数据查询的计算量和响应时间。而EXN—Tree结点编码方式简单,结点标志能够有效地“记住”原XML文档结构信息,结构关系的确定非常简单,只需一次移位运算和一次等值运算就可以方便地比较文档中任意两个结点之间的位置关系。利用EXN—Tree编码的良好特性,本文先是根据XML路径查询表达式两阶段查询的特点,提出了一种通用的关系存储模型STA来存储XML文档,然后在STA存储模型的基础上提出了一个利用EXN—Tree编码来支持XML数据查询的新策略
本文标题:基于前缀编码XML查询新策略的研究
链接地址:https://www.777doc.com/doc-822041 .html