您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > Web中文信息抽取中命名实体识别的研究及应用
西北大学硕士学位论文Web中文信息抽取中命名实体识别的研究及应用姓名:刘杰申请学位级别:硕士专业:计算机软件与理论指导教师:张蕾20090601Web中文信息抽取中命名实体识别的研究及应用作者:刘杰学位授予单位:西北大学相似文献(10条)1.学位论文许晓丽面向信息抽取的中文命名实体识别研究2009文本信息抽取是海量文本信息处理的重要环节,旨在为人们提供从海量联机文本中快速、准确地获取有用信息的工具,是一个具有高度理论和实用价值的研究课题。命名实体识别实现了从众多信息中标识并分离出相关的命名实体,它是信息抽取中最为基本的任务,是语言信息处理技术中的关键基础技术,是正确理解和处理文本信息的基础。进行文本分析时,命名实体识别就成为信息处理的首要任务。另外,命名实体识别的研究还有利于信息检索、机器翻译、文本分类等应用系统的实现。因此,研究命名实体的自动识别具有重要的理论意义和实践价值。br 本文以现代汉语文本中的人名、地名和组织名识别为研究对象开展工作,主要内容如下:br 1.将条件随机场应用到了中文命名实体识别的研究中。条件随机场作为一种比较新型的机器学习方法,能够克服一些模型中存在的标记偏置问题并避免了严格的独立性假设,在序列标记任务中表现出了良好的性能。br 2.根据各类命名实体的特点,本文提出了适合于人名、地名以及组织名的特征函数模板,包括各种原子特征模板与组合特征模板,并通过实验验证了各类特征的作用,分析了使用不同的特征模板对识别结果的影响,确定了有效特征。通过将各种反映语言本身规则的特征以及反映训练语料的特征加入到模型中,这些特征有机融合,提高了命名实体识别的性能。br 3.使用了基于字一级的条件随机场模型进行了命名实体识别实验,并在实验中加入了一定的规则进行结果修正,提高了命名实体识别率。2.学位论文张奇信息抽取中实体关系识别研究2010信息抽取研究随着互联网的发展变得越来越重要,一个典型的信息抽取任务是从无结构化或者半结构化的文本中,通过信息抽取技术,提取人们所感兴趣的内容,并以结构化的形式,例如关系数据库形式或者XML形式保存下来。信息抽取技术可以应用于多个领域,比如学术搜索、商品搜索、文本挖掘、知识库构建等等。由于信息抽取技术的广泛应用,信息抽取算法的研究越来越成为当前信息检索领域的热点。信息抽取任务包含了多个子任务,比如事件抽取和共指关系确定等等。但是从应用的广泛程度以及研究的深入程度来看,信息抽取任务包含了两个主要子任务:命名实体识别任务和实体关系抽取任务。命名实体识别子任务的目标主要是识别文本中包含的各种名实体,比如:人名、地名、公司组织名和时间短语等等。而实体关系抽取子任务的目标主要是发现和识别隐含在实体与实体之间的关系。因此从广义上来说,实体关系抽取包含了命名实体识别任务。目前信息抽取研究已经取得了很多的成果,也越来越走入人们的日常生活,比如像谷歌的本地搜索等等。但是信息抽取技术仍然面临着很多困难。成熟的信息抽取系统往往采用模式匹配的方法,因而只能局限于某些特定的实体类型和实体关系类型或者只能局限于某些特定的领域。而采用统计学习的方法的系统,往往局限于对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果往往不尽如人意。本论文对信息抽取工作的已有研究成果进行了总结,分析了信息抽取任务的关键问题,并在命名实体识别、实体关系抽取以及实体关系时间属性抽取等方面进行了研究,提出了相应的解决方法。论文首先介绍了信息抽取系统的发展历史和相应的研究成果。分别介绍了命名实体识别和实体关系抽取这两个子任务的关键技术、相关研究以及存在的问题。边界分割是中文命名实体识别算法中的一个关键问题。论文提出了一种基于网页结构特征的候选实体生成算法,并将中文实体识别问题转化为一个分类问题。同时论文提出了基于DOM-Tree的实体关联算法,根据树距离就近原则和相关信息不冲突原则,提高了实体之间关联的准确度。深层语义特征的利用是实体关系抽取中的一个研究热点。论文提出了一种基于链接语法的实体关系抽取方法,该算法根据词与词之间的依赖语法关系,定义了深层的语法特征,并利用监督学习的方法加以识别,从而提高了抽取的准确度。同时该算法还考虑了实体关系的时间属性抽取,进一步完善了实体关系含义的完整性。知识库的建设是信息抽取系统的主要应用之一。本论文提出了一种带时间属性的知识库的创建方法。首先给出了带时间属性知识库的表示模型以及时间属性的运算法则,并针对半结构化数据和无结构化数据分别设计了相应的抽取算法。在缺乏时间属性的情况下,论文采用了基于页面级别的时间属性推理方法和基于知识库级别的时间属性推理方法,提高了算法的覆盖率。最后论文还关注了未定义类型实体关系抽取方法,部分解决了大部分信息抽取系统只能处理预定义关系类型的瓶颈。算法采用了基于语义角色标注的关系类型动态识别方法,并采用条件随机场作为标注工具,将未定义类型实体关系识别问题通过标注的方法解决。论文的主要贡献可以总结为如下几个方面:1)提出一种基于网页结构的中文命名实体识别和关联算法。设计了基于网页结构特征的候选实体生成技术;提出了基于DOM-Tree的实体关联原则:树距离就近原则和相关信息不冲突原则。2)提出一种基于深层语义特征的实体关系识别算法。采用了词与词之间的依赖语法关系作为识别特征;抽取实体关系的同时考虑了时间属性的识别。3)提出一种带时间属性的知识库构建方法。设计了带时间属性知识库模型;构建了基于模式匹配和统计学习方法的抽取框架;提出了页面级别和知识库级别的时间属性推理方法。4)提出了一种未定义实体关系识别算法。利用了语义角色标注算法作为识别特征;提出了基于条件随机场的标注方法。3.期刊论文刘非凡.赵军.吕碧波.徐波.于浩.夏迎炬.LIUFei-fan.ZHAOJun.LVBi-bo.XUBo.YUHao.XIAYing-ju面向商务信息抽取的产品命名实体识别研究-中文信息学报2006,20(1)市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点.产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注.本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchicalhiddenMarkovmodel)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统.实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7%,86.9%,75.8%.通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力.4.学位论文彭学政基于统计方法的中文命名实体识别与关系抽取2008随着计算机的广泛应用和互联网技术的迅猛发展,社会的信息总量呈指数级增长。面对信息爆炸带来的挑战,亟需一些智能化的工具来帮助用户获取真正有用的信息,信息抽取正是在这种背景下提出的,并已经成为当前研究的一个热点问题。信息抽取的主要目的是将无结构或者半结构化的文本转化为结构化的信息,其研究任务可分为:命名实体识别、实体关系抽取、指代消解和事件探测这四个主要研究点。本文针对中文信息抽取当中的命名实体识别和实体关系抽取技术展开研究,主要的贡献有如下几点:1、提出了一种外部词典与统计相结合的汉语分词方法。该方法利用外部词典来改进“由字构词”的汉语分词方法,既保留了传统词典分词方法对词典词的处理精度高的优点,又具有统计方法汉语分词方法在未登录词处理上的优势,有效地提升了对词典词的处理能力,从而地提高了汉语分词的整体性能。同时,该方法只需要在较小的标注语料库上训练,就能获得令人满意的分词结果,从而减轻了统计方法对于标注语料库的依赖性。2、尝试了专家知识与机器学习相结合的中文命名实体识别方法。针对现有命名实体识别方法的不足,本文采用了比最大熵马尔可夫模型(MEMM)更加优越的条件随机场模型(CRFs)作为机器学习的主要框架,通过利用人名、地名和机构名的构成规则等专家知识,以及人名姓氏和名字常用字列表、地名常用后缀列表、机构名常用后缀列表等词典资源来辅助机器学习,提高了命名实体识别的准确率和召回率。3、研究了一种面向主题的实体关系抽取方法。提出利用依存句法分析的结果树来计算两个命名实体之间的“语法距离”,削弱了汉语当中修饰语在计算实体之间的距离时的干扰作用,提高了关系抽取的准确率。同时,本文还结合词性、词在文字窗口中的位置、词之间的依存关系等信息来进行关系描述词语的抽取,从而能够自动为所抽取的实体关系对赋予较为准确的标签。4、在以上研究成果的基础上,设计并开发了一个实用的关系抽取模块,应用于互联网舆情监测系统,取得了很好的实际应用效果。5.学位论文任惠基于Stacking框架的命名实体识别2008中文命名实体识别是指识别出文本中特定的实体。它是机器翻译、文本分类、信息检索和自动文摘、自动问答等多种自然语言处理技术的基础。作为信息抽取的基本任务,为了促进其他技术和应用的发展,命名实体识别一直是自然语言处理的研究热点之一。因此,研究中文命名实体的识别技术是很有意义,也是非常重要的。针对现代汉语文本的特点,本文主要研究以人名、地名和机构名的识别为核心内容的中文命名实体识别问题。我们以SIGHAN竞赛的命名实体定义和评测标准为依据,利用基于Stacking框架的组合分类器来进行命名实体识别,结合局部特征和全局特征,对中文命名实体识别进行了实验。另外,在结合多种特征的同时,本文又加入了词列表信息来进一步提高实验系统的性能。在本文中,我们详细介绍了Stacking框架的定义、模型结构、训练方法以及模型算法的选择等,提出了适合于各类中文命名实体的特征模板。在特征选择过程中为了不影响命名实体识别的精度并使其保证一定的独立性,我们并不选用分词和词性标注作为特征加入,而以字为单位进行特征选择。在应用了实体所在句子内部的局部特征基础上,利用了相同实体在同一语料中的其他共现来抽取有用的全局特征。本文将以上方法结合起来,进行中文命名实体识别,通过实验进行验证,取得了较好的效果,证明了其有效性。6.会议论文刘非凡.赵军.吕碧波.于浩.夏迎炬面向商务信息抽取的产品命名实体识别研究市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点.产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注.本文面向商务信息抽取对产品命名实体进行了定义,提出了一种基于层级隐马尔可夫模型(hierarchicalhiddenMarkovmodel)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统,在电子数码和手机领域均取得了令人满意的实验结果.7.学位论文杨华基于最大熵模型的中文命名实体识别方法研究2008命名实体识别是信息抽取的子任务,同时也是机器翻译、自动问答等多种自然语言处理技术的基础。由于受中文自身特点的限制,中文命名实体识别一直相当困难。为了促进其它中文自然语言处理技术和应用的发展,研究中文命名实体的识别技术是很有意义,也是非常重要的。本文利用最大熵模型(MaximumEntropy,ME)进行中文命名实体识别。尝试了在不同特征模板集下,命名实体识别的性能,深入研究了最大熵模型在中文命名实体识别中的特点,发现最大熵模型不能自动组合特征,模型性能很大程度上依赖于特征模板。因此,设计合理的特征模板是基于最大熵模型中文命名实体识别的关键。汉语中存在大量的隐含语义特征,可以帮助命名实体的识别,而最大熵模型的一个重要优点就是能融合不同粒度和不同层次的特征。针对这一特点,本文通过从语料库中抽取信息的方式,建立了大量的中文命名实体语义知识库。但是,由于语料库的规模有限,并且基于统计的方法普遍存在数据稀疏的问题,导致很多重要的知识不能被挖掘出来。为了解决这一问题,本文首次将语义扩展的思想应用在命名实体识别中,充分发挥了有限语言资源的作用,深度挖掘了有限资源的信息和知识,在
本文标题:Web中文信息抽取中命名实体识别的研究及应用
链接地址:https://www.777doc.com/doc-5891021 .html