您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 072529_李荣国_信息抽取技术及前景浅析报告
信息抽取技术及前景浅析李荣国072529关键词:信息抽取信息处理技术分词句法及语义分析摘要:面向实际应用和潜在需求,建立自适应的、可移植的系统是未来信息抽取的发展方向,立足于目前已有的研究成果,建立受测试集驱动、通过机器学习构建有监督机制的规则库并在此基础上实现知识获取将成为一条发展的思路。一、信息抽取概述随着计算机在各个领域的广泛普及和Internet的迅猛发展,社会的信息总量呈爆炸式的指数增长。信息总量的量级,从20世纪90年代初的MB(106)过渡到GB(109)再到现在的TB(1012)。进入21世纪后,全世界信息总量更是以每三年增加一倍的速度递增。据统计,在这些海量信息中,有60%~70%是以电子文档的形式存在。为了应对信息爆炸带来的挑战,迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。信息抽取(InformationExtraction,IE)正是解决这个问题的一种方法。信息抽取技术是指从一段自然语言文本中抽取指定的事件、事实信息,并以结构化形式描述信息,供信息查询、文本深层挖掘、自动回答问题等应用,为人们提供有力的信息获取工具。也就是从文本中抽取用户感兴趣的事件、实体和关系,被抽取出来的信息以结构化的形式描述,然后存储在数据库中,为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务。广义上信息抽取技术的抽取对象并不局限于文本,其他形式存在的信息也可以作为信息抽取的对象,而抽取的结果则变为相应的结构化数据。后文如无说明只涉及中文文本信息抽取。信息抽取技术的最终目的就是开发实用的信息抽取系统,从自由文本中抽取、分析信息,从而得到有用的、用户感兴趣的信息。信息抽取技术在军事、经济、医学、科学研究等领域有着极大的应用空间。与信息抽取密切相关的一项研究是信息检索(InformationRetrieval,IR)技术。信息抽取并不同与信息检索,两种的功能、处理技术、适用领域均不相同,但它们俩是可以互补的。为了处理海量文本,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入;而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地服务与用户的信息处理需求。另外,和信息抽取相关的技术还有自动文摘、文本理解、自然语言生成、机器翻译和数据挖掘等。二、信息抽取系统的构建在信息抽取技术中,对自由文本进行信息抽取需要运用许多自然语言处理(NLP)知识,所以自由文本信息抽取系统的构建是比较复杂和困难的。在信息抽取系统的构建过程中,最重要的是如何获得抽取模式(ExtractionPattern)。根据抽取模式获得的方式的不同,信息抽取系统的构建主要有两种方法,即知识工程方法(KnowledgeEngineeringApproach)和机器学习方法(MachineLearningApproach,也叫自动训练方法automaticallytrainablesystem)。知识工程(KE)方法依靠人工编写抽取模式,使系统能处理特定知识领域的信息抽取问题。这种方法要求编写抽取模式的知识工程师对特定知识领域有深入的了解,具有性能好和易开发等优点。这种方法一般用于构建具有以下特点的系统:1.已有相应的资源,如词典、表等;2.已经有了可用的规则;3.数据训练代价大或者不容易实现;4.抽取的规格变化频繁;5.性能要求高。机器学习(ML)方法是利用机器学习技术让信息抽取系统通过训练文本来获得抽取模式,实现特定领域的信息抽取功能。任何对特定知识领域比较熟悉的人都可以根据事先约定的规则来标记训练文本。利用这些训练文本训练后,系统能够处理没有标记的新的文本。这种方法构建的系统具有的特点刚好与用KE方法的系统特点相反。知识工程方法的设计初始阶段较容易,但是要实现较完善的规则库的过程往往比较耗时耗力。自动学习方法抽取规则的获取是通过学习自动获得的,但是该方法需要足够数量的训练数据,才能保证系统的抽取质量。下面介绍以下两种信息抽取结构:通用信息抽取结构和BareBones结构。通用信息抽取结构:Hobbs提出的,也叫Hobbs结构。将信息抽取系统抽象为“级联的转换器或模块集合,利用手工编制或自动获得的规则在每一步过滤掉不相关的信息,增加新的结构信息”。其组成如图1所示。图1信息抽取过程☆文本分块:将输入文本分割为不同的部分——块。☆预处理:将得到的文本块转换为句子序列,每个句子由词汇项(lexicalitems,词或特点类型短语)及相关的属性(如词类)组成。☆过滤:过滤掉不相关的句子。☆预分析:在词汇项序列中识别确定的小型结构,如名词短语、并列结构等。☆片段组合:如果上一步没有得到完整的分析树,则需要将分析树片段集合或逻辑形式片段组合成整句的一颗分析树或其他逻辑表示形式。☆语义解释:从分析树或者分析树片段集合生成语义结构、意义表示或其他逻辑形式。☆词汇消歧:消解上一模块中存在的歧义得到唯一的语义结构表示。☆共指消解:也称篇章处理,通过确定同一实体在文本不同部分中的不同描述将当前句的语义结构表示合并到先前的处理结果中。☆模板生成:由文本的语义结构表示生成最终的模板。当然,不是所有的信息抽取系统都包含所有的模块,并且也未必完全遵循以上的处理顺序。但一个信息抽取系统应该包含以上模块中描述的功能。一个典型的信息抽取系统的工作过程主要包括:1.用一组信息模式(infopatterns)描述感兴趣的信息。信息模式一般可表示为一个简单的句子,如公司名“推出”产品名。系统针对某一领域的信息特征预定义一系列信息模式存于模式库中。2.对文本进行“适度的”词法、句法及句子分析,并作各种文本标引。这个过程通常包含识别特定的名词短语(人名、机构名等)和动词短语(事件描述、事件陈述)。这需要使用合适的词典、构词规则库和分词算法等等支持。3.使用模式匹配方法识别指定的信息(找出信息模式的各个部分)。4.使用上下文关联、指代、引用等分析和推理,确定信息的最终模式。5.输出结构(例如生成一个关系数据库或给出自然语言陈述等)。典型的信息抽取系统还包括一个预处理过程,目的在于过滤掉与抽取目标不相干掉文本;然后通过词法分析和标引,识别所有相关的词汇(“关键词”识别与标引);句法和语义分析只应用于所有包含了关键词典句子的集合,对每个句子的分析结果近似于该句子的语义框架表示;最后对这些框架进行合并和综合,便可得到所需的信息的各种数据项(关系数据模式的各个字段)。BareBones结构:如图2的结构是空骨架(BareBones)结构,是Hobbs结构的一个简化。图2BareBones结构图其实一个信息抽取系统只有图上4个部分是不够的,所以以上结构称为“空骨架”。如图3所示,是一个添加了词分割、部分语音标记、词组理解等内容的完整的、有“血肉”的信息抽取系统。图3一个有“血肉”的信息抽取系统结构其中,符号化的工作主要是进行词的分割,类似与Hobbs结构的文本分块。词汇和词法处理则是根据词典和各种标记来理解词汇的意义,从而进行实体的识别。句法分析得到文档的某种结构表示,如完整的分析树或分析树片段集合。领域分析可以分为共指分析和片段结果(模版)的合并两部分。三、中文信息处理技术在信息抽取中的应用信息抽取主要的技术有:a.命名实体识别;b.句法分析;c.篇章分析与推理;d.知识获取。根据中文的特点,中文信息抽取具有一定的特殊性,需要以下几种中文信息处理技术的支撑:1.词典、词语切分和词性标注;2.句法及语义分析;3.句群分析与篇章表示。信息抽取技术是针对结构文档、板结构文档、纯文档进行的知识抽取,去除文档中不需要的冗余信息,抽取出对我们有用的知识,并存入结构数据库中。因此,信息抽取技术的核心是从文本中提取信息,如果对于文本中的关键句(中心句)能够使机器理解,则对于提高抽取的精度有很大的帮助。因此,将自然语言(中文)信息处理技术应用与信息抽取技术,将使信息抽取技术更加完善。一般有三种信息抽取方法:基于隐马尔科夫模型的信息抽取(主要利用Baum-Welch算法计算模型初始状态概率、状态转移概率和释放概率,解码问题采用Viterbi算法,学习问题可以采用ML算法和Baum-Welch算法),基于自然语言处理的信息抽取方法和基于规则的信息抽取。下面详细介绍基于规则的信息抽取方法及其可以用到的中文信息处理技术。基于规则的信息抽取需要词典和规则库的支撑,这些规则一般不是通用的,而是针对某个特定领域的。下面对其抽取流程和用到的中文信息处理的关键技术做以下分析。一、信息抽取系统模型基于规则的信息抽模型可设计如图4所示。这是根据Hobbs的通用结构设计的。图4基于规则的信息抽取系统结构二、词法分析进行分词(包括词、词组和短语的切分)。词切分正确与否是信息抽取的关键所在。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1、基于字符串匹配的分词方法即机械分词方法。它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:1)正向最大匹配法,正向最小匹配法;(由左到右的方向)对于待切分的一段字符串,首先以该字符串的首字为起点进行搜索,直到找到以该字为首字的起点,在字符串中出现的最长(最短,但不为单个字)的词,并以此为标记切出第一个词,并将剩下的字符串作为新的待切分字符串进行相同的处理。2)逆向最大匹配法,逆向最小匹配法。(由右到左的方向);思想同正向最大匹配法相同。3)邻近匹配算法(neighborhoodmatch)。采用首字索引的词表,利用在同一首字下的词条按升序排列这一条件,在找到某个字符串后,在其后面加上一个子得一新字串,如果新子串在词典中出现,那么新词一定在原字串的后面,且相隔不会太原。这一匹配算法就叫邻近匹配算法。4)最短路径匹配算法。首先根据词典,找出字符串中所有可能的词(也称全切词),然后构造词语切分的有向无环图。5)最少切分(使每一句中切出的词数最小),等等。还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待切分字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串,然后再进行机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。2、基于理解的分词方法这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试
本文标题:072529_李荣国_信息抽取技术及前景浅析报告
链接地址:https://www.777doc.com/doc-43710 .html