您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 组织学习教育 > Web数据管理两千字
Web数据管理信计1101郭东旭20111399网络硬件的升级以及个人电脑的普及推动着互联网的快速发展。的迅速发展,使其成为全球信息传递与共享的日益重要和最具潜力的资源,使得Web逐渐成为一个主要的计算平台和各类信息发布的重要方式,作为一种新的环境资源,为新技术的产生开辟了新的领域,同时也为传统技术的研究提出了新方向。目前许多研究机构对在国际互联网(Internet)和企业内部互联网(Intranet)环境下的信息搜集、共享和传递产生了兴趣,并展开了广泛的研究。一.Web数据管理系统及其数据空间当代Web数据管理系统已经呈现出面向大众的趋势,个性化的操作要求对数据提供更丰富的查询支持,同时数据来源也需要既有广度又有精度。这些新的特点对系统各部分的功能和实现提出了更高的技术要求。自从Web出现,对Web数据的有效管理就一直是科研和企业的关注热点。目前主要的Web数据管理方式包括:HTML、XML和数据库。其中HTML和XML主要用于SurfaceWeb的数据交换,而结构化的DeepWeb数据则需要通过更高效的数据库进行访问。无论采用何种方式,现有的方法都只能满足单纯的企业需求,即数据组织和模式映射必须由管理员事先制定。然而,当今Web数据管理面对的是大众的个性化需求,数据的组织方式也将由用户决定。这些新的变化促使数据管理方式也发生着相应的变革,2005年数据空间技术的出现使得自组织的数据管理方式成为现实。数据空间技术也成为解决面向大众Web数据管理的新途径。Web数据管理的核心是数据的组织和表达,即根据系统需求怎样对分散、异构的数据按照一定原则进行集成与共享。传统的数据集成方法通过建立中间模式实现多源数据的统一访问,而数据与中间模式之间的对应借助模式映射实现。然而Web环境下,数据以及需求的变化使得传统的数据集成,方式显得捉襟见肘。首先,Web数据海量、异构,人们不可能对所有的数据提前预置数据模式;其次,需求由企业向大众的转变,对Web数据管理的灵活性、易用性提出了更高的要求。2005年AlonHalevy等人提出了一种新的数据管理方式:数据空间,进行个人数据管理。2007年他们又将数据空间技术应用于Web数据管理。数据空间作为Web数据管理的新方法,受到人们的普遍关注。数据空间是由各种数据及其关联共同组成的一个数据集合。与数据集成相比,数据空间更关注于数据间的相关性,即“先有数据,后有模式”,其数据关联更加灵活、松散、滞后。灵活体现在中间模式和模式映射不再固定不变。松散表现为数据间不再仅是模式级别的映射相关,而且包括数据实例、甚至数据项之间的直接联系。而滞后性则是指,这种松散的关联并非预先定义而是以PAYGO(pay-as-you-go)自增的方式,在应用中逐渐积累起来的。与其他数据管理系统相比,数据空间弥补了企业系统高模式语义与个人系统无模式语义间的真空,对多源Web数据提供了一种灵活的、面向大众的数据管理解决方案。数据空间功能主要由四个子功能共同构成,包括数据关联、数据建模、PAYGO数据查询以及索引技术。其中数据关联是发现Web数据、数据模式间存在的各种关联;数据建模将设计合适的数据模型使其有能力依据数据空间的原则描述Web数据及其各种联系;PAYGO数据查询则利用这种自增的数据关联在数据模型中进行自增的数据查询;索引技术根据PAYGO的查询模式,预先建立索引提高查询效率。二.基于XML的Web数据管理XML(ExtensibleMarkupLanguage,可拓展标记语言,简称XML)是为了用来对信息进行自我描述而设计的一种新语言,XML是SGML(标准通用标记语言)的子集,也是一种元语言。XML包含一组基本规则,任何人都可以利用这种规则创建针对特定应用领域的标记语言,这些标记不是描述信息的方式,而是描述信息本身,因此,XML实际上是作为一种标准被推出来的。XML有如下几个特点:(1)ML文档是纯文本,因此可用从文本编辑器直到可视化开发环境的任何工具创建和编辑,这使得程序可以更简单。而在需要存储大量数据的场合,一个数据库的XML前端就可以满足需要,因此XML提供了从小配置文件到企业级数据仓库的可扩展性。(2)基于内容的数据标识,因而可被不同程度用于不同目的。(3)可格式化。在显示形式很重要的时候,XSL(ExtensibleStyle-sheetLang-uage,可拓展样式语言)和指定如何显示数据。由于数据和显示是分离的,甚至可以为同一数据指定不同的形式表用于不同输出,并很容易在将来使用新的格式进行显示。(4)具有很强的链接能力,可以定义双向链接、多目标链接、扩展链接和两个文档间的链接。(5)易于处理XML对格式的定义更为严格,并具有层次结构,处理起来更加容易。它是与厂商无关的标准,可以任选一个解析器来处理。XML在采用简单、柔性的标准化格式表达和在应用程序间交换数据方面迈出了一大步。可以认为HTML提供了查看数据的通用方法;XML则提供了直接在数据上工作的通用方法。XML的威力在于将用户界面和结构化数据相分离,允许不同来源的数据无缝集成以及对同一数据的多种处理。从数据描述语言的角度看,XML是灵活的、可扩展的,有良好的结构和约束;从数据处理的角度看,它足够简单且易于阅读,几乎和HTML一样易于学习,同时又易于被应用程序处理,因此,XML必将带来下一代网络应用技术的革命。随着Internet的应用的深入,人们逐渐感到以HTML为基础的Web技术存在两个致命的弱点:其一是它仅给出了所处理对象的显示信息,而没有给出描述对象其他属性的信息;其二是大量可在本地完成的处理工作不得不交由服务器处理,这大大增加了网络流量,影响了网络效率。这样,XML应运而生,而由XML驱动的Web将更快、更友好。随着XML的扩展,Web的响应时间将大大加快。目前,连接在Web上的计算设备,都是获得表单,填写后返回给Web服务器,直到完成一项任务。但是,随着XML中增加的结构化和语义化信息,连接在Web上的计算设备将可以在现场进行大量的处理,这不仅能减轻Web服务器的许多负担,而且会极大地减少网络流量。建立一个XML应用通常需要遵循以下主要步骤:(1)选择或编写一个DTD(或Schema)。(2)生成XML文档。可以将DTD(或Schema)看成模板,填入需要的数据。(3)解析XML文档。解析是XML应用的第一步,可以选择SAX或DOM标准,目前已有各种语言的多种Parser(解析器)提供。(4)显示XML文档。如果你的浏览器可以显示XML,那么,你可以直接将XML文档发送给浏览器,或者使用XSL将XML翻译成你的浏览器可处理的内容。如果还想作更复杂的排序和重排结构,你可以使用DOM。三.基于Web的查询语言Web的应用不单纯是信息的查询,还会涉及到更深层的应用要求。如Web与数据库的连接等。对于网的信息管理方面的问题主要反映在以下三个方面:(1)Web模型化及其查询。比如我们可以将Web看作一个有向图,图结点代表Web页,图的边代表页间的链接(如WebSQL语言)。这样,查询的实现便既可以基于页的内容,也可以基于页间的链接结构。(2)信息的提取与集成。要进行Web页的信息提取与集成,我们便应当进一步细分页的粒度。如在HTML文档中,将每一个标志信息(如字体、字型、换行符...)作为最基本的粒度单位,这样便可以从HTML文档中提取出结构化描述的数(如WebOQL语言)。此外,由于Web站点是自主而异构的,因此需要通过数据集成系统来实现数据集成的要求。(3)Web站点的构造与重构。依据查询语言的功能和特点可将Web查询语言分为两代。第一代:以WebSQL,W3QL和WebLog为代表的Web查询语言。其基本思路是:将基于内容的查询与基于结构的查询结合在一起,也即将描述Web文档内容的文本模式与描述文档之间链接结构的图模式结合起来。第二代:以WebOQL,SRTUQL和FLORID为代表的Web查询语言。这类语言将Web看作超树模型,每个Web页是结构化对象。结构化对象具有两个特性:(1)对象包含(或不包含)文本模式;(2)某一对象通过指针指向另一对象。这类语言为数据包装、数据交换和数据重构方面的应用提供了方便。四.总结未来的Web信息将由更近似于数据库的方式进行管理,而不是目前采用的单一信息检索的方式。因此,Web资源需要以有结构的方式进行组织和访问。Web数据管理技术正是适应这一要求而涌现的崭新的研究领域,,它涉及Web信息的组织模式、Web信息的有效而方便的查询、Web信息的集成与发布等方面。从技术上讲,Web数据管理融合了技术、数据库技术、信息检索技术、移动计算技术、多媒体技术以及数据挖掘技术,是一门综合性很强的新兴研究领域。
本文标题:Web数据管理两千字
链接地址:https://www.777doc.com/doc-2867159 .html