您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > Web中文信息抽取技术与命名实体识别方法的研究
西北大学硕士学位论文Web中文信息抽取技术与命名实体识别方法的研究姓名:牟力科申请学位级别:硕士专业:计算机软件与理论指导教师:张蕾20080619Web中文信息抽取技术与命名实体识别方法的研究作者:牟力科学位授予单位:西北大学相似文献(10条)1.期刊论文朱靖波.姚天顺中文信息自动抽取-东北大学学报(自然科学版)1998,19(1)论述了信息抽取与信息检索的区别,信息抽取与深入的自然语言处理的区别,中文信息目动抽取的目的、任务和基本模型;然后介绍了一些国外的IE系统;讨论了关于中文信息自动抽取的一些问题和正在开展的中文信息抽取研究工作.2.会议论文房一飞.张冬茉基于boosting的文本分类在股市领域信息抽取系统中的应用2001首先介绍了特定领域多语种信息抽取系统的基本模型,并针对该系统的预处理模块的需要,提出了一种基于机器学习方法的文本分类系统.该系统通过boosting算法,对一个易实现的弱分类器进行增强,最后获得一个强分类器,从而避免了直接构造强分类器的困难.实验证明,相对于直接构造强分类器,该算法具有简单灵活,易于实现的优点,其构造出来的分类器达到了信息抽取系统的要求.3.学位论文杨永贵中文信息抽取关键技术研究与实现2008随着互联网等新兴媒体的迅猛发展,如何从海量电子文档中及时准确地找到需要的信息已经成为一个亟待解决的问题,信息抽取正是在这样的背景下产生并发展起来的。本文对中文信息抽取的几个关键技术进行了研究,设计实现了多个面向不同领域的信息抽取实验系统,并对信息抽取在信息内容安全领域的应用进行了初步探索。论文的主要研究成果如下:1.设计实现了一种自底向上的有监督机器学习算法,不仅能较准确地完成规则的自动提取,还能较好地实现领域间的移植。在此基础上,设计实现了两个实验系统:财经领域公司人事变动新闻的信息抽取实验系统和移动赛事新闻点播系统。实验结果表明,规则提取算法对两个系统都是有效的。本文还探索了信息抽取与移动终端技术的结合,移动赛事新闻点播系统表明,“信息抽取+短信息”的智能信息服务模式是完全可行的。2.采用隐马尔科夫模型对体育赛事新闻文本进行抽取,设计并实现了实验系统三。并在统计方法的基础上加入了规则的方法,通过两种方式的结合,提高信息抽取性能。实验结果表明,这种统计与规则相结合的中文信息抽取方式取得了比较令人满意的效果。3.在体育赛事新闻领域对命名实体识别进行了重点研究,通过基于规则的方法实现了对赛事名称、比赛结果等命名实体较好地识别。4.探索了信息抽取在信息内容安全领域的应用。针对中文手机垃圾短信过滤任务,提出了一种规则和统计相结合的倾向性判断模型。在此基础上,设计实现了中文短信内容监控实验系统,并取得了良好的实验结果。最后,对本文中文信息抽取关键技术的研究与实现进行了总结,并展望了进一步研究的方向和思路。4.期刊论文郑家恒.王兴义.李飞信息抽取模式自动生成方法的研究-中文信息学报2004,18(1)模式匹配是信息抽取系统通常使用的方法,如何生成信息抽取模式就成为信息抽取的关键问题.由于手工编写模式的代价太大,本文尝试采用聚类方法自动生成针对中文文本的信息抽取模式.通过计算模式实例间的相似度,采用单链法聚类,将模式实例划分为不同的类别,每个类别对应一个模式,将同一类别中的模式实例进行合并就可以得到最终的信息抽取模式.以农作物信息文本为实验语料,进行了聚类测试,错分率与漏分率分别为0.21%和1.07%,合并后的模式覆盖了人工分析提出的25类中的24类.5.期刊论文吴芳.郑君.刘金亮.宗克玄.WUFang.ZHENGJun.LIUJin-liang.ZONGKe-xuan基于GATE框架的中文信息抽取技术的研究-电脑知识与技术2009,5(24)介绍了信息抽取技术的基本概念、GATE信息抽取系统的抽取过程.对现有的信息抽取系统构建方法进行了介绍,指出了构建中文信息抽取系统所需要解决的关键问题及解决办法.6.期刊论文梁晗.陈群秀.吴平博.LIANGHan.CHENQun-xiu.WUPing-bo基于事件框架的信息抽取系统-中文信息学报2006,20(2)信息抽取技术能够提供高质量的检索服务.本文提出一种基于框架的信息抽取模式并建立统一的灾难性事件框架,利用框架的继承-归纳特性简化系统实现过程,概括事件信息,并提出按时间流顺序的线索性文件抽取的输出方式.本文使用这种方法建立了一个灾难性事件信息抽取系统.实验证明本文中的方法是有效的.7.期刊论文李蕾.周延泉.王菁华.LILei.ZHOUYan-quan.WANGJing-hua基于全信息的中文信息抽取系统及应用-北京邮电大学学报2005,28(6)从全信息理论的思想出发,综合建立、分析和使用语法、语义和语用信息知识库,研究实现了一个面向特定应用领域--财经新闻领域的中文信息抽取实验系统.在此基础上,探索了信息抽取技术在移动信息服务中的一种应用模式,即信息抽取+手机短信,将信息抽取结果的简洁、清晰、明确的优点与手机短信的移动性、灵巧性、普及性等优点很好地结合起来,提供智能化的移动信息服务.实验系统验证了这种模式的可行性.8.学位论文相卫华中文信息抽取(IE)中事件模板建立的研究2005本文以西班牙马德里事件作为实验对象,研究突发事件领域的文本信息特点,探索突发事件模板的自动获取。通过机器学习方法,建立了相关事件模板,用于表述信息各个侧面的特征。并运用匹配和抽取算法,对测试语料进行模式匹配与信息抽取。作者主要完成了以下研究工作:一、以马德里311爆炸事件的500篇新闻语料作为训练语料,通过向量空间模型表示,以知网(HowNet)为知识库,通过句子聚类进行了事件的侧面抽取,并通过特征模糊向量进行侧面表示。二、通过有限状态自动机(FAFiniteAutomata)与概率方法的结合,进行训练语料中特征句型模式的抽取,抽取的结果通过知网(HowNet)中的类别转换,生成泛型特征句型模式库。三、以马德里311爆炸事件的314篇新闻语料作为测试语料,进行侧面匹配、句型模式对应、槽值填充工作。测试语料以向量空间模型表示后与各侧面的特征模糊向量相乘后比较得到该语料所属侧面。然后按照所提供的有限状态自动机(FA)进行候选句型抽取,对于未确定的候选句型利用特征句型模式库通过最大概率法进行筛选确定,最后对特征句型对应的槽提取槽值填充。9.期刊论文梅雪.程学旗.郭岩.张刚.丁国栋.MEIXue.CHENGXue-qi.GUOYan.ZHANGGang.DINGGuo-dong一种全自动生成网页信息抽取Wrapper的方法-中文信息学报2008,22(1)Web网页信息抽取是近年来广泛关注的话题.如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点.文章中提出了一种全自动化生成网页信息抽取Wrapper的方法.该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper.利用Wrapper能够对同类网页自动地进行信息抽取.实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率.10.期刊论文刘非凡.赵军.吕碧波.徐波.于浩.夏迎炬.LIUFei-fan.ZHAOJun.LVBi-bo.XUBo.YUHao.XIAYing-ju面向商务信息抽取的产品命名实体识别研究-中文信息学报2006,20(1)市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点.产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注.本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchicalhiddenMarkovmodel)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统.实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7%,86.9%,75.8%.通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力.本文链接::武汉大学(whdx),授权号:fa5e7a83-c13a-4f93-a75b-9e3300ec82a7下载时间:2010年11月19日
本文标题:Web中文信息抽取技术与命名实体识别方法的研究
链接地址:https://www.777doc.com/doc-43881 .html