您好,欢迎访问三七文档
LOGO自然语言检索2012情报学于博LOGO自然语言基本概述1自然语言与情报检索语言比较2自然语言检索策略3基于ontology的自然语言检索4LOGO自然语言基本概述什么是自然语言自然语言又称“日常语言”,它是在长期的社会实践中约定俗成的用于在日常生活中表达和交流思想的工具特点:语汇、涵义极为丰富,但有歧义LOGO自然语言基本概述自然语言情报检索语言情报语言LOGO自然语言基本概述情报检索语言分类法语言主题法语言代码语言受控制语言自然语言日常使用的语言无控制语言LOGO所谓受控语言,是指人们从自然语言出发,根据检索的需要,依据一定的规则对自然语言进行事先规范而形成的人工语言,其实质是表达文献情报特征的概念及其相互关系的概念标识系统。自然语言则是指人们日常生活中使用的语言,是在情报检索中使用文献作者原来所用的语言,或文摘编写者原来所用的语言。自然语言基本概述LOGO自然语言与情报检索语言比较LOGO自然语言与情报检索语言比较自然语言检索是情报检索的趋势随着近些年网络情报检索的发展,传统的检索语言由于条条框框太多,在一定程度上限制了它的应用。自然语言由于未经任何的规范化处理,比较符合人们的检索习惯。自然语言词汇专指度比较高,可以实现对文献的深度标引,进而实现全文检索;使用自然语言不会使得概念的表达失真,标引与检索不统一;人工标引和自动标引可以自由选择,不存在各种语言兼容等问题。LOGO自然语言检索的困难汉语自动分词问题词义模糊性、不确定性问题词间关系的无控制性问题LOGO自然语言检索策略自然语言的三种控制模式标引控制检索控制标引不控制检索控制标引控制检索不控制后控制LOGO自然语言检索策略后控制在标引阶段和检索的人机接口处使用的仍然是自然语言,在检索系统内存有一个概念的集合:当系统接收到用户的一个或多个自然语言检索标识后,能自动地在该集合中进行概念的搜索,得到与此标识相关的更多概念,然后再选取能确切表达用户意图的词作为检索词,最后给出检索结果。入口词表、后控词表LOGO自然语言检索策略受控语言与自然语言结合使用受控语言与自然语言并行使用建立后控制词表入口词表以自然语言作为自由词进行补充标引自动赋词标引或自动赋分类号LOGO基于ontology的自然语言检索Ontology原本是一个哲学概念。用于描述客观事物的本质,是对客观存在的一个系统的解释和说明。1991年,Neches等人最早给出了Ontology的定义:给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义LOGO基于ontology的自然语言检索共享概念模型的明确的形式化规范说明(1)概念模型(Conceptualization);(2)明确(Explicit);(3)形式化(Formal);(4)共享(Shared)。把现实世界中的某个领域抽象成一组概念(如实体、属性、进程等)及概念之间的关系,然后构造出这个领域的本体。LOGO基于ontology的自然语言检索传统自然语言的检索过程用户利用自然语言直接输入检索请求,系统接收检索请求,同时对其进行语法分析,将其转换成计算机可识别的短语。向系统提交用户的检索意图,查找到源文本,并对其进行排序、去重处理,最后向用户提交查询结果,完成整个检索过程。基于Ontology的自然语言检索的过程首先必须在一个具体的领域建立Ontology,然后根据具体的要求收集信息,并对收集后的信息进行注释,依靠本体将用户的查询请求从语义上进行分析,使用户的查询请求更为清晰、明确、规范,匹配算出符合用户需求的信息,将结果提供给用户。LOGO基于ontology的自然语言检索的优势消除自然语言的歧义实现语义检索,提高检索效率构建用户兴趣模型LOGO2012情报学于博
本文标题:自然语言检索
链接地址:https://www.777doc.com/doc-3184194 .html