您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 基础医学 > 基于XML智能答疑系统知识库的构建
分类号UDC单位代码10642密级公开学号2002452067重庆文理学院学士学位论文基于XML智能答疑系统知识库的构建论文作者:何国强指导教师:学科专业:计算机科学与技术研究方向:智能计算机辅助教学提交论文日期:2006年5月22日论文答辩日期:2006年6月3日学位授予单位:重庆文理学院中国重庆2006年6月目录基于XML智能答疑系统知识库的构建计算机科学与技术专业2班何国强指导教师**摘要:本文从本体论与XML相结合的角度研究了知识库的构建。文章首先介绍了知识、知识库、智能答疑系统和本体论,这些理论是构建知识库的理论基础,然后,着重阐述了构建知识库两大技术,即MicrosoftVisio和XML,前者作为本体建模的图形工具,后者用于本体模型的形式化。基于以上对理论基础和关键技术的介绍,本文针对《计算机操作系统教程》一书的部分知识进行了本体建模。出于知识和问题的特点,对本体组成的理论作了局部的改造,同时定义了四种图形符号的精确含义,以便于用MicrosoftVisio进行图形化本体模型。就具体的建模过程,本文提出了本体建模三个步骤:第一,明确建模的范围和目的;第二,知识的获取;第三,知识模型的图形化。通过上述步骤得到了直观的本体模型,然后利用XML技术作为知识库的开发平台,以DTD作为本体与XML的结合点,通过精心设计DTD完成了本体论与XML的结合,实现了从本体模型到XML文档的映射。文章最后完成了本体模型的编码即生成了XML文档。关键词:XML;本体;知识;知识库;智能答疑系统DesignRepositoryofIntelligentQuestionAnsweringSystemBasedonXMLMajor:ComputerScienceandTechnologyClass:2Author:HeGuoqiangSupervisor:GuQiyuanAbstract:ThispaperhasresearchedthedesigningrepositoryfromtheviewofcombinationbetweenOntologyandXML.Atfirst,thispaperintroducedsometheoriessuchasknowledge,repository,IQASandXML.Thesearethebasictheoriesofdesigningrepository.Andthenitexpatiatedontwokeytechniquestodesignrepository.TheoneisMicrosoftVisioandtheotherisXML.Theformeristhegraphictoolofontologymodelingandthelatterisusedtoformalizetheontologymodel.Basedonbasictheoriesandkeytechniquesabove,thispaperhasbuilttheontologymodelofthepartialknowledgeinthebookcalledCOMPUTEROSTEXT.BecauseofthetraitofOS’knowledgeandproblem,theauthorhasmodifiedOntologytheoryinpartanddefinedfoursymbols’meaningsaccuratelyinordertousethesesymbolstobuildOntologymodelgraphicallywithMicrosoftVisio.Astoconcretemodelingprocess,theauthorhasbroughtforwardthethreestepsinOntologymodeling.Thefirstisconfirmingthepurposeandscope;thesecondisacquiringknowledgeandthelastischangingknowledgemodeltograph.Accordingtothethreestepsabove,thispaperhasgivenbirthtographicOntologymodel.Then,usingtheXMLastheplatformofdesigningrepositoryandusingtheDTDasthebridgebetweenOntologyandXML,theauthorhascompletedthecombinationbetweenOntologyandXML,andactualizedthemapfromOntologymodeltoXMLdocumentviadesigningDTDcarefully.FinallypaperhascodedtheOntologyviaDTDnamelyhascreatedXMLDocument.Keywords:XML;Ontology;Knowledge;Repository;IQAS1引言1.1研究背景随着远程教学的发展,智能答疑系统也变得倍受关注,对智能答疑系统的需求也与日俱增。知识库作为智能答疑系统的大脑运行在系统的后台。它是问题求解的基础,为了使智能答疑系统取得理想的效果,领域知识库本身的建设也至关重要,领域知识库中知识的数量与质量,在很大程度上决定了系统的有效性与智能性[24]。目前人们对知识库的研究越来越重视,同时产生了大量的知识库,但是这些知识库都是基于一定的系统,其独立性和跨平台性都较差,共享能力和重用能力都较弱。这两大弱点是构建知识库极难克服的障碍。1.2研究内容基于上述所提到的知识库的不足,本文从本体论和XML技术相结合的角度研究知识库的构建。领域知识的本体建模和XML文档的生成是本文研究的重点内容。首先,本体论满足了知识的共享和重用,可避免知识库的重复开发,领域知识的本体建模就是通过对领域知识特点的分析,在充分掌握领域知识结构的基础上,对领域知识进行抽象,建立本体模型的过程。其次,XML是一种纯文本格式,XML技术能够保证知识库的独立性和跨平台性。本文利用DTD作为本体与XML的结合点,给出了从本体模型到DTD的映射算法,并生成了一个以《计算机操作系统教程》作为领域知识的DTD实例,在该DTD的指导了完成了XML文档的生成。本体论和XML技术还具有一层互补的关系。本体论能够精确定义语义,而XML在形式上统一了语法的表示。统一语义的本体和统一语法的XML相结合成为了构造知识库的一把利刃。本文分四部分阐述了基于XML智能答疑系统知识库的构建,分别是:○1理论基础,○2相关技术,○3领域知识的本体建模,○4XML文档的生成。1.3研究意义(1)以XML文档作为知识库,大大提高了知识库的可移植性,使得知识库的独立性得到的提高。XML本身是一种开放的标准,很多人都可以参与到XML文档的开发工作中来,这样XML便成了一个构建知识库的平台,从而促进了知识的融化与集成。(2)由于本体建模目前还没有形成统一的标准,更没有统一的工程方法论用以指导本体的建模,所以本文也对本体建模作了尝试,并结合图形工具完成了一个本体模型的构建。2理论基础2.1知识2.1.1知识的定义所谓知识,简而言之,就是人类对世界的认识。这里的世界既包括远到宇宙深处的外部世界、也包括触及人类心灵的内心世界;既包括大到天体宏观世界,也包括小到原子的微观世界;即包括能够被人类直接经验的世界,也包括不能被人类经验的世界。这里的认识是人的头脑对客观世界的反映[1]。2.1.2知识的类型为了便于对知识进行表征,需要对知识进行分类。通常情况下,知识可以分为陈述性知识和程序性知识。陈述性知识包括事件、概念、定理、公理和规则等。事件如“爱因斯坦发现了相对论”;概念有抽象和具体之分,如“学生”是一个具体概念,指“在学校读书的人[1]”,而“函数”则是一个抽象概念,其定义是“给定两个实数集D和M,若有对应法则f,使对D内每一个数x,都有唯一的一个数My与它相对应,则称f是定义在数集D上的函数[2]”。程序性知识是指作为技巧性动作基础的知识,倾向于动力的(变化的)[3]。直观地说,程序性知识就是指描述做某事的过程,使人或计算机照此去做[4]。2.1.3知识的表示知识表示实际上就是对人类知识的一种描述,以把人类知识表示成计算机能够处理的数据结构[18]。在人类世界,除了少数领域如数学领域外,知识主要是用自然语言表示的。由于自然语言的三位一体性,即思想、方法、对象三者同时融于语言之中,因此,人类自然语言既是交流的工具,又是认知的工具,同时也是思维的工具[5]。知识表示语言应该仿生自然语言,所谓知识表示就是指知识的形式化。在知识表示的过程中要遵循以下一些原则[4]:①表示知识的范围是否广泛?②是否适合于推理?③是否适合于计算机处理?④是否有高效的算法?⑤能否表示不精确知识?⑥能否模块化,以便于知识分层?⑦知识和元知识能否用统一的形式表示?⑧是否适合于加入启发式信息?⑨过程性表示还是说明性表示?⑩表示方式是否自然?知识表示有两个层次,第一层是用某种数据结构如语义网络来描述知识,这个层次的知识表示主要用于对知识进行抽象,生成知识模型。工作在这个层次上的知识表示方法(数据结构)有语义网络、框架、谓词逻辑、产生式等。第二层是用某种具体的语言如XML、Prolog来表示实现第一层建立起的知识模型,其结果就是一个具体的知识库。这一层的作用把知识模型转化成计算机可以存储和处理的代码。2.2知识库简单地说,知识库就是知识的集合。人的大脑就是一个知识库,里面存放着形形色色、内容繁杂的知识。一台智能计算机或者一个智能系统必须要有一个知识库,这个知识库是计算机或系统做出行为的根据。一个良好的知识库能够对系统提供很好的支持,这种支持尤其表现在系统的搜索和推理能力。目前,知识库主要以以下几种形式存在于各种系统中:(1)嵌入源程序;(2)知识文件;(3)知识数据库[20]。构建知识库的过程是就利用计算机相关技术对知识进行抽象及编码的过程。2.3智能答疑系统智能答疑系统是一个基于知识库的问题求解系统,问题求解是智能答疑系统的重要功能。问题理解和问题求解是实现智能答疑系统的关键问题。2.3.1问题理解正确地理解问题,知道提问者的用意是正确回答问题的前提。一般说来一个问题包含两个功能,第一个功能是提供相关信息,第二个功能是揭示提问点。问题里提供的信息是问题求解的前提条件,这些信息可以是显式给出的,也可以是隐式给出的;可以是完全的,也可以不完全的。提问点是指提问者的用意或目的。问题理解的任务就是完整地抽取信息和正确地把握提问点。同时,思考人们回答的各种问题所属类别[6],有助于对问题进行理解,问题的类型加上专业词便可知道提问者到底要得到哪方面的、是什么性质的答案[7]。只有对问题进行了全面和合理的理解之后才能对问题作出正确的解答,从而避免答非所问。由《计算机操作系统教程》可归纳出以下一些问题类型:概念、功能、原理、关系、计算、意义、异同、分类、是非、论述、特点、原因、优缺点、举例。2.3.2问题求解[18]问题求解有两种主要策略,一种是通过搜索来求解,搜索包括盲目搜索和启发式搜索。盲目搜索能够保证问题得解,而启发式搜索大大提高了搜索的效率;另一种是通过推理来求解,推理能够产生新的知识。搜索是推理的前提,推理所需的数据和规则都是由搜索来发现和提取的。2.4本体论本体论(Ontology)是表述哲学理论上的术语,指关于存在及其本质和规律的学说[8]。本体论的哲学含义告诉我们,本体论研究实体的存在性和实体存在的本质,这是深层次上的知识,是本质上的知识。因此,本体论把知识工程研究中的知识向更深入、更本质的方向推进[11]。本体(ontologies)是最近引入到计算机界的一个述语。在计算机界对本体的定义存在着很大的分歧。本文采用Borst于1997年给出的本体的一个定义,即“本体可定义为被共享的概念化的一个
本文标题:基于XML智能答疑系统知识库的构建
链接地址:https://www.777doc.com/doc-2535383 .html