您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 从Wikipedia中获取本体原理与方法研究
从Wikipedia中获取本体:原理与方法研究余传明/张小青2012-10-2211:01:43来源:《情报学报》(京)2011年3期【英文标题】GettingOntologyfromWikipedia:PrinciplesandMethods【作者简介】余传明,男,1978年生,E-mail:yuchuanming2003@126.com,毕业于武汉大学信息管理学院信息管理专业,博士,副教授,硕士生导师,研究方向:计算机信息系统工程、知识管理与知识工程,中南财经政法大学信息与安全工程学院(武汉430073),上海理工大学管理学院;张小青,女,1986年生,上海理工大学管理学院硕士研究生,研究方向:计算机信息系统工程(上海200093)。【内容提要】Wikipedia作为一个大型的知识库,正逐渐被人们应用于不同的领域。在本体构建领域,Wikipedia以其丰富的组织结构为大规模协作式的本体学习提供了有效的环境,利用Wikipedia进行本体学习逐渐成为一个新的研究热点。本文从这一角度出发,在剖析Wikipedia基本结构的基础上,分析和比较了从类别结构图、信息盒和定义句中获取本体概念和实例的相关原理和方法,阐述了利用Wikipedia获取本体关系的原理,分析了基于结构特征、基于词典、基于句法和基于混合方式的模式匹配方法,以及基于结构特征和文本特征的统计学习方法,并对利用各种方法获取本体关系的效果进行了比较。Wikipediaisahugeknowledgebasewhichisbeingappliedtoalotoftasks.Fromanontology-buildingperspective,utilizingwikipediaasasourceforontologylearningisbecominganewresearchfocusbecausethecyclopedicnatureofWikipediaprovideaneffectiveenvironmentforlarge-scaleandcollaborativeontologylearning.Fromthispointofview,thepaperfirstdescribesthestructureofWikipedia,thenanalyzesandcomparestheprinciplesandmethodsofacquiringconceptsandinstancesbyutilizingcategorystructuregraph,informationboxanddefinitionsentence.ThepaperanalyzestheprinciplesofrelationextractionfromWikipedia,andcomparestheefficiencyofpatternmatchingmethodandstatisticslearningmethod.【关键词】本体学习/Wikipedia/概念/实例/关系Ontologylearning/Wikipedia/Concepts/Instances/Relations1引言本体(Ontology)最初是哲学上的一个概念,是对客观存在事物的系统解释和说明。在计算机科学领域中,最著名并被广泛引用的定义是由Gruber提出的“本体是概念模型的明确的规范说明”[1],即本体实际上是对相关领域中的概念及相互之间关系的明确定义,并提供人们对该领域知识的共同认可和理解。目前,本体已经被广泛地应用于语义网、信息抽取、信息检索、知识工程以及数字图书馆等方面。本体的构建是本体研究和应用的基础和前提,因此成为人们研究的重点。然而,手工方式构建本体需要耗费大量的时间和精力,且无法及时进行扩充和更新,即使使用现有的本体构建工具(如Protégé[2]或OntoEdit[3]),也需要手工依次输入和编辑领域中每个概念的名字、属性以及关系等内容。因此,如何利用知识自动获取技术降低本体构建。开销、提高构建效率成为一个非常重要的研究问题。在这种背景下,本体学习(OntologyLearning)技术应运而生,其旨在利用多种学科技术从各种类型的数据源中自动或半自动地构建目标本体[4]。近年来,Wikipedia(维基百科)作为一个巨大且不断增长的开放知识库[5]引起了研究者的广泛关注,其庞大的信息数据量以及独特的结构知识正逐渐被应用于自然语言处理、信息检索、信息抽取、本体构建以及语义网等领域[6]。尤其在本体构建领域,Wikipedia以其丰富的组织结构为大规模协作式的本体学习提供了有效的环境,利用Wikipedia进行本体学习逐渐成为一个新的研究热点。鉴于此,下文将在剖析Wikipedia结构的基础上,对利用Wikipedia进行本体概念、实例以及关系抽取的原理和方法进行分析和比较,以期为相关研究者利用Wikipedia进行本体学习提供借鉴。2Wikipedia及其结构Wikipedia创建于2001年,是一个基于Wiki技术的全球性多语言百科全书协作计划,同时也是一个动态的、可自由访问和编辑的全球知识体,其目标是为全人类提供各种语言的自由百科全书。到目前为止,Wikipedia已经成为内容最多、范围最广、更新最快的开放型网络百科全书,英文版本的条目已经超过300万条[7]。Wikipedia的结构主要由条目(Article)、信息盒(InformationBox)、类别(Category)和超级链接(Hyperlinks)等构成。2.1条目条目是Wikipedia中最基本的信息单元。每篇条目描述一个特定的主题。条目的开头对该主题进行基本的定义和解释,因此条目开头的第一条语句又称为定义句(DefinitionSentence)。后续内容则从各个角度对该主题进行详细的阐述,这些不同的阐述视角构成条目的目录内容(Contents),不同条目的目录内容各不相同,如图1所示。图1条目——条件随机场(ConditionalRandomField)2.2信息盒信息盒是Wikipedia中一种特殊类型的模板结构,用来概括条目主题中的常见属性。图2显示了条目编程语言Java中的信息盒以及其对应的Wiki语言。首行的{InfoboxProgrammingLanguage}表示该信息盒所属的类型:编程语言(ProgrammingLanguage)。条目标题也是该信息盒的标题。后面数行的内容则是该条目的常见属性以及对应的属性值,如图标、发布日期、设计者等。其中,最新发布日期(Latest_Release_Date)、最新测试版本(Latest_Test_Version)等属性没有填充对应的属性值,为空值。2.3类别Wikipedia鼓励用户将自己撰写的条目进行归类,同时也鼓励用户为自己创建的类别指定多个父类,因此,条目和类别都可以属于多个类别。Wikipedia中的类别页面主要包括两种类型:TopicCategories和ListCategories。前者主要包含与特定主题相关的类别和条目,后者主要通过列表列出某个概念下的所有实例。不同类别之间的关联构成了具有一定层次性的类别结构图,但这种层次性不是简单的树结构,而是一个复杂的网络结构(图3)。由于Wikipedia的类别体系主要用于导航,便于用户从不同的方面或角度进行搜索,所以类别之间的关联缺乏严谨性和一致性,存在大量的冗余。因此,很难直接从类别结构图中判断某个领域中所有密切相关的类别和条目。图2信息盒——Java(ProgrammingLanguage)图3类别结构(NetworkCategoryStructure)2.4超链接在Wikipedia的条目中,主要包含两种链接:内部链接(InternalLinks)和外部链接(ExternalLinks)。前者是从Wikipedia的一个条目页面链接到另一个条目页面,后者是从当前的条目页面链接到外部的相关主题网页。至2009年,Wikipedia(英文版)已包含超过60M的超链接,构成了一个强大的链接体系。与一般的纯文本语料不同,Wikipedia作为一种特殊的半结构化知识资源,其内部内容虽然在很大程度上也是由文本组成,但同时又包含了类别、信息盒等多种结构特征,充分利用Wikipedia的各种信息可以有效地改善本体学习的效果。下文将重点分析利用Wikipedia获取本体概念与实例以及本体关系的相关原理和方法。3从Wikipedia中获取本体概念与实例本体概念又称为类(Class),其含义非常广泛,可以指任何具体的或抽象的事物,如工作描述、功能、行为、策略和推理过程等[8]。本体实例则是概念的具体化。从语义角度来讲,实例表示的是对象,概念表示的是对象的集合。大多数的本体学习方法在提取概念时,往往不区分概念和实例,而是直接将术语识别为概念。从Wikipedia中获取本体概念则与传统方法[9~12]不同,不需要利用词频统计、词法结构等特征来区分普通词语和概念术语,而是通过利用丰富的结构信息直接识别出本体概念和实例。3.1基于类别结构图的本体概念与实例获取在Wikipedia中,条目和类别之间的联系反映了实例和概念之间的分属关系或者概念和概念之间的上下位关系,这些关系可以用类别结构图表示(如2.3节图3所示)。由于Wikipedia的类别结构图是一个复杂的网络结构,其中各个领域中的概念相互交叉,很难直接从中获得某一领域本体的概念和实例,因此需要对类别结构图进行深入分析。一种思路[13]是首先统计类别结构图中概念到各个领域的路径数以及路径长度等因素,然后根据隶属度函数计算概念的领域隶属度,即概念向量的每个分量值,最后从概念向量中判断概念所属的领域。这种方法充分利用类别结构图中的结点和路径关系来计算概念的领域隶属度,概念向量反映了概念与每个领域的相关性。但对于某个领域本体中的所有相关概念,概念领域隶属度的计算量将变得非常大,从而大大降低概念提取的效率。为了减少领域隶属度的计算量,可以考虑直接从复杂的网络类别结构图中构造出分类树结构。一种可行的方法是通过对上述分类树进行遍历并根据网络图中结点的入度和出度给每个结点打分,得到得分超过一定阈值的结点,将这些结点所对应的条目作为领域概念[14]。这种方法原理简单,计算量较小,能够快速地自动识别领域中的相关概念,但是各个概念结点的得分情况与分类树的根结点密切相关,因此根结点的选择对于算法的效果具有较大影响。3.2基于信息盒的本体概念与实例获取信息盒作为Wikipedia中的一种特殊结构,以统一的表格形式出现在条目中。每种类型的信息盒对应着一个概念,信息盒标题则对应着概念的实例。如2.2节图2所示,{InfoboxProgrammingLanguage}对应概念“编程语言(ProgrammingLanguage)”,信息盒标题对应此概念的一个实例。如果多篇条目中包含的信息盒都指向相同的概念,则表示这些条目是同一个概念的多个实例;如果一篇条目中出现多个不同类型的信息盒,则表示该实例属于多个概念。利用信息盒的这种结构关系可以非常准确地识别本体概念和本体实例[15]。但Wikipdeia中只有15%左右的条目包含信息盒,这在较大程度上限制了该方法的通用性。3.3基于定义句的本体概念与实例获取定义句一般出现在条目的开头,对条目的内容进行简短的描述。例如,在条目“条件随机场(ConditionalRandomField)”中,第一句为“AConditionalRandomField(CRF)isatypeofdiscriminativeprobabilisticmodelmostoftenusedforthelabelingorparsingofsequentialdata,suchasnaturallanguagetextorbiologicalsequences”。该句对条件随机场进行了基本定义。通常情况下,定义句中隐含了概念之间的上下位关系或实例-概念关系。例如,在上述定义句中,可以得到概念“条件
本文标题:从Wikipedia中获取本体原理与方法研究
链接地址:https://www.777doc.com/doc-4074209 .html