您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 语义网概念及技术综述
语义网概念及技术综述计算机软件与理论周鹏程摘要:语义网是现有万维网的变革与延伸,是Webofdocuments向Webofdata的转变。它的目标是让计算机可以像人脑一样理解信息的含义,从而完成智能代理的功能。本文对语义网结构、相关技术、规范做了简要的综述,分析了目前语义网研究所面临的挑战,并为下一步的研究工作明确了方向和重点。关键词:语义Web本体OWL资源描述框架互联网之父、HTTP和HTML的发明人蒂姆·伯纳斯-李(TimBerners-Lee)在1998年[1]提出了语义网(SemanticWeb)的概念并在《科学美国人》杂志上发表了相关论文[2],由此揭开了世界范围内语义网研究的序幕。语义网被认为是下一代互联网即Web3.0的发展方向。Web已经成为了人们获取信息的主要渠道,深刻地影响着人类生活的方方面面:人们在Web上浏览国内外新闻、网上交易、搜索信息。然而,目前我们正在使用的Web是面向人的而不是面向机器的,换言之,很多繁琐的过程都要用户参与。面对海量的网页数据,人们准确全面、快速便捷地获取到有价值信息的难度越来越大。语义网是一种使用可以被计算机理解的方式描述事物的网络,它的基本思想就是让机器或者设备能够自动识别和理解万维网上的内容,自动化地处理、集成来自不同数据源的数据[3],使得Web信息获取更为智能便捷。本文将从4个方面对语义网概念和技术作综合述评:(1)基本概念,对语义网的相关背景、概念做一个总体介绍。(2)体系结构,阐述语义网的体系结构。(3)关键技术,对语义网涉及的RDF(ResourceDescriptionFramework,即资源描述框架)和Ontology(本体论)等技术进行介绍。(4)面临挑战,结合当前国内外研究现状阐述语义Web面临的挑战。最后再对语义网技术进行总结和展望。一、基本概念从Web诞生并经历多年发展至今,Web上的网页数量呈指数级增长。尽管Web上存在海量的信息,但是当前的Web实际上只是一种面向人的存储和共享信息的媒介[4]。Web上的内容是提供给人而不是机器本身来理解和浏览的。由于Web内容没有采用形式化的表示方式,并且缺乏明确的语义信息,故而计算机“看到的”Web内容只是普通的二进制数据,对其内容无法进行识别。如果机器不能充分理解网页内容的含义,就无法实现Web内容的自动处理。考虑到当前Web存在的上述问题,Berners-Lee提出了语义网。顾名思义,语义网是对现有Web增加了语义支持,它是现有万维网的延伸与变革,其目标是帮助机器在一定程度上理解Web信息的含义,使得高效的信息共享和机器智能协同成为可能。语义网将会为用户提供动态、主动的服务,从而更便于机器和机器、人和机器之间的对话及协同工作。简言之,语义网就是以Web数据的内容,即数据的语义为核心,用机器能够理解和处理的方式链接起来的海量分布式数据库[4]。二、体系结构Berners-Lee提出了最初的语义网体系结构[5],随着人们对语义网的深入研究,语义网的体系结构也在不断地发展演变。图2-1给出了语义Web的体系结构,各层的功能自下而上逐渐增强。图2-1语义网体系结构第1层:基础层,主要包含Unicode和URI(Uniformresourceidentifier)。其中Unicode是一种流行的字符集,采用两字节的全编码,可以表示65536个字符,这使得任何语言的字符都可以被机器容易地接受。URI即通用资源标识符是用于OntologyvocabularyUnicodeURIXML+NS+xmlschemaRDF+rdfschemaDigitalSignatureLogicProofTrustSelf-desc.doc.DataDataRules唯一标识抽象或物理资源的简单字符串。网络上的任何资源包括HTML文档、程序、图片、音视频等都有一个能被URI编码的地址,从而实现对Web资源的定位。第2层:句法层,核心是XML及相关规范。XML是SGML(标准通用标记语言)的一个子集,它以一种自我描述的方式定义数据结构。在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的联系[4]。用户可以在XML中自由地定义标记名称及元素的层次结构。为了便于程序或其他用户能够正确处理用户定义的内容,XML还定义了命名空间(NameSpace)和XML模式规范(XMLSchema)以提供更好地XML文档服务。第3层:资源描述框架,主要包括RDF及相关规范。RDF是一种用于描述上资源信息的通用框架,比如网页的内容、作者以及被创建和修改的日期等。RDF[7]本质上是一种数据模型,用主体(subject)、谓词或属性(predicate或property)、客体或属性值(object或propertyvalue)所构成的三元组来描述资源的元数据[8]。RDF也可以用于表达其它元数据,例如分子的结构、图书的书目信息等。正因为RDF的灵活性,它成为了诸如生物、化学等许多领域表达元数据的基本方法[11]。可以说,RDF已经成为知识表达的通用形式。如果把XML看成一种标准的元数据语法规范的话,那么RDF就可以看做一种标准的元数据语义描述规范。第4层:本体层,即定义本体(Ontology)。该层在RDF的基础上定义了RDFS(RDFSchema)和OWL(WebOntologyLanguage)帮助用户构建应用领域相关的轻量级的本体。RDFS和OWL定义了语义,可以支持机器在用RDFS和OWL描述的知识库和本体中进行推理[4],以达到语义网的目标。第5至7层分别是逻辑层(Logic)、验证层(Proof)、信任层(Trust)。逻辑层在前面各层的基础上进行逻辑推理操作。验证层根据逻辑陈述进行验证,以得出结论。信任层是语义网安全的组成部分,与加密不同的是,该层主要负责发布语义网所能支持的信任评估[4]。目前第6层和第7层正处于设想阶段。基于语义Web的体系结构还在建设当中,科研人员及相关组织还在研究制定相关的规范、开发工具及软件包,为将来人们开发友好、可靠的语义网应用提供强有力的支撑。三、关键技术从图2-1不难看出,实现语义网需要三大技术的支持,即XML、RDF和Ontology。其中XML层作为句法层,RDF层作为数据层,Ontology层作为语义层。如果说HTML被设计的目的是用来显示数据,焦点在于数据的外观,那么XML(extensiblemarkuplanguage),即可扩展标记语言提出的目的则是传输和存储数据。XML不仅能提供对资源内容的表示,也能描述资源的结构信息。XML严格遵守DTD或Schema定义的语义约束,天生具有良好的数据存储格式、可扩展性、高度结构化等优点,因而XML顺理成章地成为了语义网的支撑技术。事实上,目前国内外针对语义Web关键技术的研究主要集中于RDF和Ontology。3.1RDFRDF是由万维网联盟(WorldWideWebConsortium,W3C)组织的资源描述框架工作组于1999年提出的一个解决方案,并于2004年2月正式成为万维网联盟推荐标准。RDF是一种语义资源描述语言,可以视为一种由数据结构、操作符、查询语言和完整性规则组成的数据模型。该模型描述了用元数据表示的真实世界的实体信息,其目标是构建一个综合性的框架来整合不同领域的元数据,实现在Web上交换元数据,促进网络资源的自动化处理[8]。RDF的基本数据模型包括资源(resource)、属性(property)及陈述(statements)。(1)资源:一切能够使用RDF表示的对象都称为资源,包括网络上的所有信息、虚拟概念和现实事物等。资源用唯一的URI来表示,不同的资源拥有不同的URI,通常使用的URL只是它的一个子集。(2)属性:用来描述资源的特征或资源间的关系。每一个属性都有其意义,用于定义资源的属性值(propertyvalue)、描述属性所属的资源形态、与其他属性或资源的关系。(3)陈述:一条陈述包含三个部分,通常被称为RDF三元组主体,属性,客体。其中主体是被描述的资源,用URI表示。客体表示主体在该属性上的取值,可以是另外一个资源(由URI表示)或者是文本。RDF三元组是语义网数据表示的基础。要实现从目前的万维网到语义网的转变,构建海量的RDF数据集是一项基础性工作。当用RDF描述资源时,任何人可以定义用于描述的词汇,但是这些词汇的具体含义、词汇之间的关系RDF没有定义。显然,这不便于机器处理数据,为此RDFS[15](RDFSchema)定义了一组标准类及属性的层次关系词汇,帮助用户构建轻量级的本体。换言之,RDF是领域无关的,没有定义任何领域的语义,这要由用户借助RDFS来完成。RDFS是一种模式语言,定义了特定领域的词汇的含义。RDFS的作用是:①定义资源以及属性的类别;②定义属性所应用的资源类以及属性值的类型;③定义上述类别声明的语法;④申明一些由其他机构或组织定义的元数据标准的属性类。RDFS描述类是通过资源rdfs:Class和rdfs:Resourc,特性rdf:type和rdfs:subClassOf来完成的。利用rdfs:subClassOf可以定义子类,形成层次结构。此外,在RDFS中对类的特性的描述是利用RDFS类rdf:Property和RDFS特性rdfs:domain(定义域)、rdfs:range(值域)和rdfs:subPropertyOf来进行声明和描述的。3.2Ontology英文术语“ontology”一词源于哲学领域,且一直以来存在着许多不同的用法。在计算机科学领域,其核心意思是指一种模型,用于描述由一套对象类型(概念或者说类)、属性以及关系类型所构成的世界。尽管不同的本体对于这些构成成分的确切称谓有所不同,但它们却都是一部本体不可或缺的基本要素。一般来说,本体之中模型的那些特征应当非常类似于相应的现实世界[10]。上个世纪90年代初期,斯坦福大学计算机科学家TomGruber对于计算机科学术语“ontology”给出了审慎的定义:一种对于某一概念体系(概念表达或概念化过程)(conceptualization)的明确表述(specification)[9]。对于特定一个领域而言,本体表达的是其那套术语、实体、对象、类、属性及其之间的关系,提供的是形式化的定义和公理,用来约束对于这些术语的解释。值得一提的是Gruber便是时下iphone上流行的“Siri智能个人助理”(Siriintelligentpersonalassistant)的发明者,这项语音识别功能甚至一度成为iphone的卖点。在语义网的实现中,ontology具有非常重要的地位。怎样构建本体一直是人们研究的热点。各国科研人员研发出了不少本体的构建、存储、和检索工具,其中较为常用的支持中文本体构建的软件是由斯坦福大学开发的Protégé,开发语言采用Java,属于开放源码软件[11-12]。本体的构建大多是面向特定的领域的,因此如果没有规范的方法,就难以在不同领域的本体构建中保持一致。也正因为本体是领域相关的,所以难以制定一个标准的、通用的ontology构建方法。在此背景下,本体工程学应运而生。本体工程研究的内容包括面向领域的本体开发过程、本体生命周期、本体构建方法及方法学,以及为这些方面提供支持的工具包和语言。本体一般都是采用本体语言来编制的。本体语言是一种用于编制本体的形式化语言。目前已经诞生了不少本体描述语言,既包括专有的,也包括基于标准的。在众多本体语言中,网络本体语言(WebOntologyLanguage,OWL)是极为耀眼的一颗明星。OWL[16]旨在提供一种可用于描述网络文档和应用之中所固有的那些类及其之间关系的语言。OWL网络本体语言于2004年2月成为一项W3C的推荐标准,它是万维网联盟认可的,用于编纂本体的知识表达语言家族。为了适应不同的表达能力和计算效率的需要,OWL提供了3种表达能力递增、计算效率递减的子语言:OWLLite、OWLDL、OWLFull。其中,OWLLit
本文标题:语义网概念及技术综述
链接地址:https://www.777doc.com/doc-7584028 .html