您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物医学文本挖掘目前研究工作综述
生物医学文本挖掘目前研究工作综述AsurveyofcurrentworkinbiomedicaltextminingAaronM.Cohen,MDisapostdoctoralfellowinthemedicalinformaticsprogrammeatOHSU.DrCohenworksintheareaoftextmining,focusingonissuesandapplicationsimportanttobiomedicalresearchers.HewaschairmanoftheW3Cworkinggroupthatproducedversion2oftheSynchronizedMultimediaIntegrationLanguage(SMIL2.0).WilliamHersh,MDisProfessorandChairoftheDepartmentofMedicalInformatics&ClinicalEpidemiologyintheSchoolofMedicineatOregonHealth&ScienceUniversity(OHSU)inPortland,Oregon.DrHersh’sresearchfocusesonthedevelopmentandevaluationofinformationretrievalsystemsforbiomedicalpractitionersandresearchers.HENRYSTEWARTPUBLICATIONS1467-5463.BRIEFINGSINBIOINFORMATICS.VOL6.NO1.57–71.MARCH2005作者简介,文章来源AaronM.Cohen,医学博士,俄勒冈卫生科学大学医学信息学项目的博士后研究员,研究方向是文本挖掘,主要集中在文本挖掘的应用及存在的问题,他是W3C工作组的主席,创建了同步多媒体整合语言版本2(SMIL2.0).WilliamHersh,医学博士,是俄勒冈州波特兰市俄勒冈卫生科学大学医学院,医学信息学和临床流行病学专业的教授和主席,研究方向是信息检索系统的开发和评价。BRIEFINGSINBIOINFORMATICS.VOL6.NO1.57–71.MARCH2005背景和目的公开发表的生物医学研究成果以及由此带来的潜在的生物医学知识正以越来越快的速度增长,几个世纪以来科技信息通常都是以指数增长2004年MEDLINE数据库含有1250多万条记录,目前仍以每年50万条记录的速度增长。背景和目的生物医学研究的目标是发现知识并以诊断、预防和治疗的方式把知识应用到实践。人们很可能没有发现生物医学知识各个要素之间的重要联系,因为没有人建立必要的联系。必须建立一些方法来帮助研究者和内科医生高效地利用现有的研究成果,并把这些研究成果应用到实践背景和目的文本挖掘和知识抽取是帮助研究者处理信息过载的方法文本挖掘不同于信息检索(IR)和文本摘要(TS)文本挖掘也不同于自然语言处理(NLP)文本挖掘和知识提取主要集中在解决特定领域的具体问题例如:寻找与偏头痛的生物学过程有关的药理学物质来确定偏头痛可能的新的治疗方法背景和目的生物医学文本挖掘的目的是帮助研究者更加有效地识别所需要的信息以及发现被大量的可获得信息掩盖的关系就是通过对文献中及生物医学数据库自由文本中的大量生物医学知识应用算法、统计方法和数据处理方法,把信息过载的压力从研究者转嫁给计算机。目前研究的活跃领域命名实体识别文本分类关系抽取同义词缩写词提取假说形成集成框架命名实体识别(NER)目的是在文本集合中识别出特定类型事物的所有名称,例如在期刊论文集中识别出所有药物的名称,在medline摘要中识别出所有基因名称及符号命名实体识别具有挑战性不存在一个完整的包含各种类型的生物医学命名实体的字典相同的词或短语由于上下文不同表达的是不同的事物许多生物学实体有多个名称PTEN和MMAC1需要解决候选名称重复的问题可能是由多个词构成的词组例如:颈动脉carotidartery因此需要判断实体名称的边界方法基于字典的方法:将自然语言文本与事先存在的包括大量生物医学命名实体名称的字典词条进行比对,根据匹配的结果进行实体识别。精确、模糊匹配基于规则的方法:通过规则的定义将实体与其他文本划分为不同的类,进而识别出来,大写字母+符号+数字基于统计的方法:将命名实体识别问题转化为分类问题。通过使用分类工具,对训练文本进行机器学习,进而区分出各种命名实体类型,最终识别出测试文本中的命名实体。混合方法系统评价指标准确率(预测正确的命名实体数除以预测命名实体总数)召回率(预测正确的命名实体数除以文本中的命名实体总数)召回率和准确率的调和均值F-measure=2PR/[P+R]召回率和准确率的平衡点NER系统Tanabe和Wilbur开发的AbGene系统是比较成功的基于规则曾被多个研究者作为命名实体识别组件用于关系抽取研究当中。AbGene系统把Brill的词性标注扩展到包括基因和蛋白质名称作为标记类型使用生物医学文本的7000个手工标注的句子作为训练语料之后AbGene使用手工生成的基于语言统计特性的后处理规则进一步识别基因名称的上下文以及消除假阳性假阴性系统达到了85.7%的准确率和66.7%的召回率。NER系统Chang创建了GAPSCORE系统根据词的外观、形态和上下文对句子中的每个词打分,然后采用分类器训练这些特征。分数较高的词更可能是基因或蛋白质名称或符号。利用Yapex语料库进行训练,根据精确匹配和模糊匹配分别计算召回率、准确率和F值模糊匹配(召回率81%、准确率74%、F值77%)的系统性能好于精确匹配(召回率50%、准确率59%、F值54%)。NERHanisch等人利用基因与蛋白质名称的大型词典语义分类可能在蛋白质名称附近出现的词特异度为95%,敏感度为90%Zhou等人使用基于丰富特征集合的方法训练了隐马尔可夫模型,【构词特征(大写)、形态特征(前缀、后缀)、词性特征、语义触发(核心名词和动词)、别名特征】在GENIA语料库上获得了66.5%的准确率,66.6%的召回率。其他的系统包括Narayanaswamy等人的、Settles的以及Mika和Rost的NERChen和Friedman采用MEDLEE系统识别与生物医学文本中表现型信息对应的短语利用自然语言方法识别期刊论文摘要中的表现型短语以及在文本中由分散的词组成的表现型短语。由于研究较少,可获得的表现型相关的术语知识库较小自动引入成千上万的与语义类型有关的UMLS术语以及来自哺乳动物本体的上千个术语,并且还手工加入了其他术语对300篇文档进行可行性研究,系统的准确率为64%,召回率为77.1%。性能低于基因和蛋白质命名实体识别系统NER总之,目前基因和蛋白质NER系统的性能指标F值大约在75%-85%之间。这个值与2002年Hirschman等人研究的结果和2004年BioCreative专题讨论会任务1A的结果一致。虽然性能最好的系统也没有超过前几年的,但是研究者对不同数据集采用不同的方法都得到了一致的结果。NER为了解决性能平台,Tanabe和Wilbur利用AbGene生成大型的高质量的词典,包括在生物医学文本中出现的基因和蛋白质名称把AbGene应用到MEDLINE数据库产生了一个包含200多万个预测基因和蛋白质名称的初始集。利用主题分析提纯这些名称列表利用归纳逻辑编程学习规则在主题内区分基因名称和非基因名称利用假阳性过滤器去除明显不正确的名称,例如含有“http”或是以“tion”结尾的名称。最终产生了含有1,145,913个基因名称的集合。随机样本评估得到的准确率约为82%。利用语料库进行评价,精确匹配的准确率为61%,部分匹配的准确率为88%NER目前讨论的主题是NER性能多好才能有助于文本挖掘。如果假设关系提取需要识别三个生物医学术语(两个实体和一个关系),那么关系提取的性能应该近似等于NER性能的立方。对于提取新闻文章,这个独立性假设看起来是对的。但这个假设并不适用于生物学关系我们还没有为生物医学文本挖掘获得标准的NER系统构建方法或者是更新词典的方法,所以这一领域的研究工作还要继续。文本分类文本分类试图自动测定文档或文档的某部分是否含有感兴趣的特征,通常是根据文档是否讨论某一特定的主题或者是含有特定类型的信息。感兴趣的信息并不是被用户明确指定的,而是提供阳性训练集(已经发现含有感兴趣特征的文档集)和阴性训练集文本分类系统应该能够自动提取可以区分阳性和阴性的特征并把这些特征应用到候选文档进行决策文本分类精确的文本分类系统对数据库管理者尤其有用,数据库管理者可能不得不浏览数据库中的大量文献来寻找含有某种信息的少量文献越来越多的生物医学信息都是以文本形式创建,数据库管理者需要把这些信息转换编码数据因此强烈的需要一种有效的方式把文本分类方法应用到生物医学文本。文本分类Yeh等人组织了文本挖掘竞赛,是2002年KDD国际竞赛的一部分。任务是要评价FlyBase数据集的论文并根据有没有果蝇基因产物来确定是否应该管理那篇论文性能最好的条目是利用一套手工创建的规则生成的,这些规则是基于词性标注、词典和语义限制创建的,语义限制是通过检测训练文档形成的得到的F值为78%文本分类另一个有效的方法是根据文中有没有基因产物对生物医学论文进行分类,进行特征提取后利用朴素贝叶斯分类器分类有两个性能不错的系统,利用规则的表达式(interact+genename+bind)去寻找词的模式,然后利用支持向量机(SVM)对论文分类文本分类Donaldson等人使用支持向量机作为分类器,对文献摘要进行分类,提取出与蛋白质相互作用相关的文献摘要,同时还用来判断句子是否涉及具体的蛋白对100个摘要进行评价得到的准确率为96%,召回率为84%。他们估计这个分类系统能减少约三分之二管理者需要阅读的摘要数目。文本分类为了管理Swiss-Prot数据库的信息,有研究利用概率潜在分类(ProbabilisticLatentCategoriser,PLC)和KL(Kullback–Leibler)分歧重新排序PubMed返回的文档评价显示准确率召回率平衡点大约为70%,相对于原来的40%而言,准确率改善了25-45%Liu等人把文本分类独特的应用到图像说明。在试验研究中,他们分类图像库中的文本来寻找含有表示蛋白质相互作用和信号事件的图像文本分类把文本分类应用到生物医学管理者和标引者的实际工作过程中的研究才刚刚开始。2004年TRECGenomicsTrack中的任务之一就是文本分类问题这个任务试图模仿手工标注者为了寻找含有基因实验证据信息的文档而在小鼠基因组信息学(MGI)系统中浏览过程最后建成标准通用标记语言(SGML)格式的全文集合利用效用测量来评价任务的性能为了将来能够满足管理者和其他用户的需求,改进生物医学文本分类的研究工作必须继续同义词、缩写词提取生物医学文献增长的同时生物医学术语也在增长。生物医学实体有多个名称和缩写,如果有一种自动的搜集同义词和缩写词的方法来帮助研究者进行文献研究将是非常有益的。此外,如果实体的所有的同义词和缩写词都映射到表示概念的一个术语上,其他的文本挖掘任务也能更加有效地完成。同义词、缩写词提取的大多数研究都是集中在揭示基因名称的同义词和生物医学术语的缩写词。同义词提取许多研究者利用在线数据库生成基因名称同义词列表这些基因数据库多数为基因的正式名称,相对于文献中实际出现的基因名称是不完全的为了创建在文献中出现的有代表的基因和蛋白质名称的同义词列表,需要从生物医学自由文本中自动提取基因名称同义词同义词提取Yu和Agichtein结合了AbGene基因命名实体识别系统,采用统计方法、基于SVM的分类器、基于自
本文标题:生物医学文本挖掘目前研究工作综述
链接地址:https://www.777doc.com/doc-6009905 .html