您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 基于TopicMaps的叙词表再工程
1基于TopicMaps的叙词表再工程朱良兵1,纪希禹21.四川大学公共管理学院成都6100642.四川大学公共管理学院成都610064[摘要]本文介绍了叙词表的定义、词间关系的种类以及传统叙词表存在的不足,总结了主题图技术的内涵、发展历程及其优点,选择了18个主题词作为研究样本,分析其词间关系并进行建模,用Ontopia公司提供的三个免费工具分别进行创建、浏览和可视化主题图。[关键词]叙词表主题图知识组织ReengineertheThesaurusBasedonTopicMapsZhuLiangbingJiXiyu1.theSchoolofPublicAdministration,SichuanUniversity,Chengdu,Sichuan6100642.theSchoolofPublicAdministration,SichuanUniversity,Chengdu,Sichuan610064[Abstract]Thearticlefirstlyintroducesthedefinitionofthesaurusandthekindsofrelationshipbetweendescriptors,andtheshortageofthetraditionalthesaurus.Thensummarizesthemeaning,historyandmeritofTopicMaps.Finallychooseseighteendescriptorsastheresearchswatch,analyzesandmodelstherelationshipbetweenthem,usesthreefreetoolstocreate,browserandvisualizethetopicmap.[Keywords]Thesaurus;TopicMaps;KnowledgeOrganization;RelationshipInformation在网络信息海量增长的现实面前,只有对信息主题进行更好的识别才能在浩如烟海的信息资源中及时、准确地获得信息。为此,图书情报界迫切需要对传统的信息管理工具加以创新,以利于网络资源的描述和发现。叙词表独有的知识组织体系和语义结构在组织和检索网络信息资源方面将发挥重要作用,TopicMaps作为一个ISO国际标准,提出了一种基于主题的元数据组织和描述方式,提供了语义级的数据导航和组织方式,是一个表达和交换结构化信息的元数据模型,将对叙词表在网络环境下的改进和重塑中发挥重要作用。1叙词表概述1.1叙词表的定义叙词法形成于上世纪50年代末,是在吸取元词法、标题法及分面组配式分类法等知识组织方法优点的基础上发展起来的。根据GB13190-91《汉语叙词表编制规则》,叙词表是将文献、标引人员或用户的自然语言转换成规范语言的一种术语控制工具;它是概括各门或某一学科领域并由语义相关、族性相关的术语组成的可以不断补充的规范化的词表。1.2叙词表词间关系的种类叙词表由叙词及叙词之间关系组成,采用参照符号显示并清楚地区分叙词间基本语义关系。叙词表中包括以下3种关系:1)等同关系(EquivalenceRelationship),又称同一关系、用代关系,包含同义、近义以及用代关系,这种关系含有概念相同或用法相同的关系。揭示等同关系有利于增加检索入口和根据检索系统需要对标引和检索的专指度进行控制。2)等级关系(HierarchicalRelationship),又称属分关系,这种关系包含属种、整部和多层级关系,每种层级关系的下位词都必须与上位词的概念类型相同,即两者都必须属于同一范畴内的事物、行为或性质。揭示等级关系有助于通过它扩大和缩小查找范围,提高族性检索能力。3)相关关系(AssociativeRelationship),又称类缘关系,是确立由标引和检索角度需要相互关联的一种关系。相关关系是揭示叙词间各种主要联系、扩大检索范围、进行相关信息查找的重要手段。相关关系范围广、种类多、灵活性大,很难严格界定。叙词语言对语义关系的揭示方法,主要通过各种语义参照符号来反映和联系。其语义参2照系统见表1,“Y、D、S、F、Z、C”一系列语义关系符号,显示出叙词之间同义、属分、相关关系,形成了叙词表的语义关系网。语义参照关系参照项中文符号英文符号作用同义关系用YUSE从非叙词指引到叙词代DUF从叙词指引到非叙词属分关系属SBT从下位叙词指引到上位叙词分FNT从上位叙词指引到下位叙词族ZTT从下位叙词指引到最高位叙词相关关系参CRT从某一叙词指出其相关叙词表1叙词的语义参照关系其中,“Y”和“D”揭示的是词间同义关系,可帮助用户区分规范和非规范检索词;“S”、“F”、“Z”揭示的是词间属分关系,可帮助用户扩检或缩检;“C”揭示的是词间相关关系,可帮助用户获得当前检索主题的相关信息。1.3传统叙词表存在的不足叙词表和主题图相比而言,存在一些不足之处。叙词表中的术语均是规范的科学语言;而主题图中的主题可以用自然语言和半自然语言来表达。在组织结构上,叙词表中知识点的分布是线性的、一维的;而主题图中的知识点分布是网状的,它不单纯是一张平面的网格,而是一个在四维空间中伸缩的网状结构。叙词表相对稳定,结构保守而单一,不可能经常修订;而主题图是一个开放体系,其底层知识库与主题集合可以随着学科领域的更新和发展随时进行修正和更新。叙词表中只包含“用、代、属、分、参、族”这样简单的语义关系;而主题图中主题之间的关系,可以被描述得更广泛、深入、细致和全面。2TopicMaps概述2.1TopicMaps的定义概括地说,主题图是一种用于描述信息资源的知识结构的数据格式,定位某一知识概念所在的资源位置,也可以表示知识概念间的相互联系。主题图实际上在信息资源的上层构建了一个结构化的语义网,它独立于技术平台,描述主题之间的关系及主题与具体资源的联系,通过揭示概念之间的关系,将用户指引到相关的资源。建构主题图,其目的在于建立一个个人化的知识导航界面,并给使用者一个能快速掌握轻松学习知识的操作界面。主题图被誉为信息管理和知识管理之间的桥梁,是信息世界中的GPS定位仪,它可以提供信息资源的直观的导航。2.2TopicMaps的发展历程主题图的概念最初是由W3C提出的,并由国际标准化组织SGML委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是ISO/IEC13250:2000,这项国际标准定义出了TopicMaps的完整模型,它采用ISO10744:1997HyTime的标准来定义主题图的语法,因此又被称为HyTM。主题图虽然早于XML出现,但是XML与Web的迅速发展导致出现了XMLTopicMaps,即XTM。XTM是由TopicMaps组织负责订立,它的基础是ISO/IEC13250模型,但是定义的是一种XML语法,并限制它只能通过URI实现。2002年经过修订的第二版(ISO/IEC13250:2002)同时包含HyTM和XTM两种语法。2.3TopicMaps的优点主题图吸收了叙词表在词汇控制方面的思想,可以用两种机制(基本名basename和别名variantname)来定义叙词表中的用代关系,实现词汇控制,并在传统叙词表的用、代、属、分、族、参的简单关系基础上,具有灵活定义概念间关系的类型的功能,使用者可以根据领域概念的特点灵活地定义概念之间的关系。在主题图中所表达的概念之间的关系比叙词表更为具体和确切。TopicMaps体系模型如图1所示:它的基本思想实际上是我们非常熟悉的,理解它最通常的起点就是传统的书后索引。索引是一本好书中主要论题、领域的浓缩,主题地图的基本概念与之相似,有“主题Topic”(论题或名词的名称);有“主题关联Association“(参看,3参考);以及“主题资源Occurrence”(页码、或者位置描述)。与书后索引相比,主题图更加一般化,以此满足更加广阔的数字信息领域的需要,它定义了一个数据模型,并基于该模型描述底层信息内在的知识结构,用“语境范畴Scope”来确定描述的领域,为用户绘制了一副相关论题简明而富有指导价值的整体蓝图,并以知识的方式组织和管理相关的Web信息资源。换句话说,主题图提供了一个可自定义的信息路由策略,来帮助用户有效地操纵数字资源,而信息路由策略则体现了内涵于信息之中的知识。图1TopicMaps模型组成与此同时,主题图并不包含在所描述的信息当中,它是与信息无关的独立导航层,对于相同的底层资源,我们可以应用不同的主题图来动态地改变信息路由策略,也就是说用不同的知识看待相同的问题,这恰恰反映了不同知识结构的人看待相同的资源所表现出来的不同视角。3研究范围界定本研究选取《管理科学主题词表》(1996年2月第1版)作为研究样本,以主题词“情报学”为中心,选取与之相关的词汇作为研究对象。为了避免词汇数量和词间关系永无止境,我们只选取其中18个与“情报学”相关的主题词,我们对这18个主题词及其替代词进行关联性分析后,归纳出其词间关系,并制表如下:主题词代(D)参(C)属(S)分(F)用(U)情报信息科技情报、经济情报、战略情报、战术情报、商业情报、军事情报、飞行情报信息情报档案信息、科技信息、固定信息、环境信息、经济信息、决策信息、动态信息、外部信息、直接信息、管理信息、质量信息情报产业咨询业信息产业管理信息系统管理情报系统信息系统质量管理信息系统、成本管理信息系统信息经济学情报经济学信息渠道情报源4主题词subject上位词BroaderTerm同义词SynonymTerm相关词RelatedTerm下位词NarrowTerm属分关系同义关系相关关系属分关系情报分析情报研究经济信息经济情报信息竞争信息、市场信息经济信息系统信息系统市场信息物价信息、商情经济信息情报机构信息机构情报技术信息技术情报检索信息检索检索手工检索、自动化检索、追溯检索情报搜集信息搜集情报研究情报分析科技情报研究科技情报技术情报科技信息情报专利技术情报科技信息技术信息科技情报信息企业科技信息自动化检索情报检索光电检索、计算机检索表2本研究所采用的18个主题词及词间关系4对叙词间的语义关系建模确定所采用的词汇及其关联性后,便可开始着手构建语义网络。语义网络是AI研究领域中的一种表现形式,包含节点(Nodes)与连接(Links),节点通常代表客体、概念或某特殊领域的情境,连接则代表节点间的语义关联。图2叙词表词间关系之语义关系模型根据表2所列出的叙词之间的关系,可提出以下的语义模型:以“主题词”为中心,其同义关系为“同义词”;属分关系为“上位词”、“下位词”;相关关系为“相关词”。此模型如图2所示。举例来说,如以表2中的主题词“科技情报”为例,将其语义关系按图2的方法展开,结果如下:5科技情报技术情报科技信息情报专利技术情报上位词(BT)同义词(UF)相关词(RT)下位词(NT)图3以“科技情报”为例之语义关系图5构建主题图5.1用Ontopoly构建主题图Ontopoly是挪威的Ontopia公司提供的,由本体驱动的、基于Web的TopicMaps构建和管理工具,Ontopia公司是世界上领先的专注于TopicMaps技术的研究和应用的公司。一个主题图是由本体和该本体的实例组成的,你可应用Ontopoly对它们进行编辑。Ontopoly的强大功能和灵活性的关键在于它是建立在主题图的ISO国际标准之上的。这就使得Ontopoly可以支持各种知识结构,范围包括简单的索引和分类法,从叙词表到术语表,以及风头正健的本体。本实验选用“主题词”作为主题类型(TopicTypes);选用Ontopoly中自带的“Description”作为主题资源类型(OccurrenceTypes);根据表1所列出的三种叙词间关系作为关联类型(AssociationTypes);用“叙词”和“非叙词”作为“同义关系”这种关联类型的角色类型(RoleTypes),用“上位叙词”和“下位叙词”作为“属分关系”
本文标题:基于TopicMaps的叙词表再工程
链接地址:https://www.777doc.com/doc-2572462 .html