您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 机器学习关于词性标注的翻译
机器学习翻译姓名:陈伟学号:20124227003班级:01机器学习的词性标注摘要我们应用统计决策树学习和自然语言处理解决形态语句的消歧问题。这个学习的过程是为了获得一个语言模型,来解决词性标注模糊的问题,在一些相关的文章中,词性标注组成了统计决策树的标签和一些单词。得到的决策树已经直接应用在标签中,这个标签相对简单而且效率较高,在华尔街语料库的精确测量中它得到了检测,价值得到了肯定。但是如果把决策树翻译成支持灵活标签的规则会得到更好的结果。在这个领域,我们描述一个标签是指它能够应用任何信息,特别是机器学习决策树。同时,在解决标签问题时,我们只有有限的培训材料,任何从无到有的建设过程中,标注语料库是至关重要的。我们发现,在这个学习体系中我们的系统可以获得更高的精度,并且可以在开发550万字的西班牙语料库中获得一些结果。关键词:词性标注基于语料库的统计语言模型决策树归纳满意度约束松弛标签1.简介词性标注是一个非常基本的、众所周知的自由自然语言处理问题,这个问题是如何为文章中每个单词在文章的语境中分配正确的形态句法。它对许多自然语言处理问题都非常有用,例如:作为句法分析的前处理工具,信息检索和提取,从文本到语音系统,语料库语言学等。习性标注的基础是很多单词相对于它们的标签是模糊的,而且在大多数情况下,这些单词可以通过考虑上下文消除歧义。例如表一中出现的句子,单词shot通过前文将它理解成过去分词,这样就可以消除歧义了。虽然在这种情况下,单词的歧义可以简单的通过前面的标记来消除,但是前面的单词不明确的情况必须考虑,或者说上下文相对于前字的复杂程度是必须考虑的。此外,在一些例子中,仅仅通过上下文是不能够解决模糊性的,这就需要语义或是语法知识。表1如下:1.1现有的词性标注方法使用标注的先驱是TAGGIT,布朗大学最早使用原始的标注,为了提高准确性和效率,人们做了许多的努力。现有的标注使用者可以根据他们所使用的知识分为三个主要群体:语言、统计和机器学习。当然,有些标注者很难进行分类,使用混合方法的人我们也要考虑。在使用语言的方法中,编译系统所使用的规则是由语言学家来写的。这些语言模型的范围从几百到几千,他们需要付出数年的劳动。在这个领域,TOSCA的工作和最近赫尔辛基大学对于约束语法的发展是最重要的。现在大多数扩展的方法是统计的人做的(显然是因为有限的人的工作量)。基本上,它包括建立一个语言的统计模型并利用该模型消除单词的歧义。这个语言模型对不用的语言现象进行同频率的编码。这种统计结果的获得通常是基于n-gram收集方法,即,一个可能长度为n的句子通常是看它在训练预料中出现的频率。在词性标注中,通常的模型是由bi-grams和tri-grams组成的。一旦n-grams方法已经估计过了,新的例子可能被标注,通过选择最大概率的序列。这个技术是根据隐马尔科夫模型。虽然模型的形成以及决定模型序列可以通过几种方法,但是大多数系统将模型降解成uni-grams,bi-grams或者tri-grams。这个领域的开创性工作是CLAWS系统,它使用bi-grams信息并且是TAGGIT版本。这个系统在1988年被DeRose用动态编程进行了改进。Church的标注者使用了tri-grams模型。其他的标注者试图减少估计模型所需要的训练数据,用Bsum-Welch重新估计算法,从一个小的手工语料库中反复提炼一个原始的模型。这是Xerox标注者和他的继任者所做的工作。对这个主题感兴趣的人可以通过Merialdo找到一个很好的概括。其他的标注工作者可以定义在Schmid统计大家庭中,他们用神经网络实现了能源功能的优化。Chanod、Tapanainers和Voutilainen代表了目前语言学和统计学之间的比较。其他的工作方法和通过统计的方法比较接近。语音识别领域是非常有成效的,n-grams建模中使用语音识别比使用词性标注更早。最近,在这个领域中的工作不再限制建模模型,而是通过不同顺序的n-grams、形态学信息、长距离的n-grams或是触发对建立混合模型。在短期内我们可能会看到有一些方法和词性标注任务不一致。尽管统计方法从训练语料中涉及某种学习,或是不确定性,但是我们只是在机器学习中替换掉那些比n-gram模型需要更多信息的模型。Brill标注者学习一系列能最好的修改错误的转换规则,Samuelsson,Tapanainen和Voutilainen从cor-pora中获得了限制语法规则。我们这里展示的工作都是应用标记语料库的来的决策树,这些语料和其他的统计数据以及语言信息,在混合环境中通过轻松的技巧并越过约束规则被利用起来。绝大多数的统计标记方式的报告精度超过了96-97%,而应用语言限制语法的精度超过了99%,允许剩余的每个单词有1.026个含糊不清的标记。这些精度值通常在还没有被训练阶段使用的测试语料上进行计算。一些语料库经常被用作测试样本,它包括布朗大学,华尔街日报,柏林墙和英国国家语料库。1.2动力和目标考虑到上面的精确度可能可想到词性标注是一个能被多数自然语言处理系统很好的兼容的已经解决的问题。因此,为什么还要浪费时间设计另外一个标记方式呢?精度0.3%的提升又意味着什么呢?考虑的原因有几个,在自动标注方面还有许多工作要做。当在处理巨大的运行文本,并考虑每句话的长度在25-30单词时,如果我们允许错误率在3-4%,那么每句话都会有错误。自从词性标注在大多数自然语言处理系统中成为了一个基本任务,每个句子中出现错误将会是一个严重的缺陷,特别是在考虑到这些错误可能线性增长时。其他的自然语言处理任务对词性标注消岐错误非常敏感,这一点可以在词性的域名消歧和信息检索中得到印证。另外的一个问题是涉及到适应和调整时,已经从一个文本到另一个文本获得了参数标注,其中包含的文本可能来自其他的域,以尽量减少运输文本。标注的精确度通常通过对测试语料库相同特性的测试来衡量。虽然,一直没有认真的努力对来自其他域中来的语料库或是不同的特征的可能性进行标注。最后,当对不是英语的其他语言进行应用词性标注时的明确问题必须进行解决。除了来自一些特殊语言丰富的形态问题时,有一个更普遍的问题,这个问题的产生是因为训练缺乏大型的手动注释语料库。虽然一个引导的方法能够通过使用低精度的为产生注释文本的标注得到实现,其中,低精度的标记可以用来反复训练标记并学习一个更高精度的模型,这种方法的有用性在很大程度上依赖于再训练材料的质量。因此,如果我们想保证低噪声的再培训语料库,我们必须提供一个无论是对于已知或是未知的单词并且应用一个小的高质量的语料库都能得到更高精度的方法。在这个方向上,我们参与了一个为西班牙和加泰罗尼亚语料库进行标注并且限制了语言来源的的项目。为了具有可比性,我们对一个参照的英语语料库进行了实验。我们也汇报了通过应用目前的技术对西班牙语料库进行注释所取得的成果,证明了投入相当低的劳动成本也可以达到很好的精度。本文的结构如下:在第二部分描述应用领域,语言模型的学习算法和模型评估。第三和第四部分我们通过两个标记描述语言模型的应用。包括:一个基于标记的决策树,一个基于标记的简单标签。在使用一个小的训练语料库并联合使用两个标记来注释在第五部分提到的西班牙语料库的特殊情况下比较它们的结果。最后,将会在第七部分写得出的主要结论,以及对以后工作的展望。2语言模型的获得为了让一个计算机系统来处理自然语言,那这种语言用某种方式建模就是必须的,用这样一种方式,它们可以被用来预测或识别语言在将来的应用。罗森菲尔德在1994定义了语言模型的第一个特点就是捕捉自然语言的规律,他还从目前大量的可变和不确定的自然语言的处理中指出了建立模型的需要。正如第一方部分中描述的那样,语言模型可以手写,也可以通过统计或是秋机器学习得到。在本文中,我们展示了机器学习模型和统计学习模型的应用。同时也包括对手写模型的测试。2.1训练语料和词形词汇的说明我们已经使用了117万字的华尔街日报的一部分,根据Penn标记规则进行标记,来训练和测试系统。它的功能有以下几个方面。这个标记的设定包括45个不同的标记。语料库中36.5%的单词是模糊的,歧义比是模糊单词中每个单词有2.44个标记,整个单词的歧义比是1.52。文献包含243种不同的歧义类,但是它们不是都很重要。事实上,最常用的40种歧义类在文献中占据的比例是83.95%,而194种最常用的歧义类则几乎涵盖了它们的全部。训练文集被用来一个词汇,对于每49206个输入将它和每个单词的出现的频率联系起来。通过统计每个应用不同标记的单词在文集中出现的次数来估计概率。这条简单的信息为每个简单的消歧算法提供了一个启发,根据词汇的可能性来选择它最可能的标记以此组成消岐算法。请注意,这样的一个标记不使用任何和上下文相关的信息,仅仅只是考虑单个词汇出现的频率。图1显示了这种方法在华尔街日报中对不同的训练语料的性能。报告中涉及到模糊单词的数量可以被任何一个标记当做下界。更加特殊的是,对于一个超过40万单词的训练语料来说获得的准确性是81-83%。但是,想简单的通过增加更多的语料来更有效的估计词汇是不合理的。由于文集注释的错误,词汇的结果会有一定量的噪声。为了减少这种噪声,通过对文集中最常用的200个单词的检查来进行过滤,其中,这200个在文集中最常用的单词代表了文集的一大半。基本单词的原始词汇条目是:它在文集中以六个不同的词性标记出现,包括:CD,DT,JJ,NN和VBP。很显然只有唯一一个是正确的。2.2学习算法从一系列标记中为一个单词在特殊的上下文中选择合适的标记这种方法可以被当做一个问题的分类。在这种情况下,用标记进行分类。决策树在最近的几个自然语言处理任务中得到应用,例如词性标注,语法分析,精度消歧以及信息提取都很适合应用决策树。2.2.1歧义类和统计决策树根据对可能可能标记的设置对文章中出现的所有单词进行标记是有可能的。我们把这些设置叫做歧义分类。很显然在这写分类中有一个包含关系,以此整个歧义类的设置应该被看成是用DAG结构的分类。第二部分展示了这种结构以及包含关系的一部分,摘自华尔街日报。用这种方法我们可以针对每一个歧义类将词性标注问题分割成一个分类问题。相比于通常的机器学习中的分类我们确定了一些显著的特点。首先,必须有大量的训练例子:一棵树要有超过60000个例子。第二:在训练和测试数据中要有显著的噪音,华尔街日报语料库大约包含2-3%的错误单词。上述特征的主要结果是:简单的根据上下文不能解释所有的模糊的内容,也就是说不能用决策树来对训练例子进行完整的分类。相反,我们渴望根据通过单词在上下文中出现的特殊上下文内容的可能的标记来获得它们调整的概率。因此我们将会使用统计决策树而不是常用的决策树。我们用来构建统计决策树的算法是TDIDT中一个从实例进行学习的非增量的算法。在实例信息的引导下它用自上而下的方法构建决策树。2.2.2训练集和属性对每一个歧义分类的实例都是通过从训练语料中出现的属于这分类的所有单词来组建。对于单词属性的设置是为了消除歧义,其中描述的例子涉及到语音标签和单词的正交特性。对于常见的歧义类的属性集包括一个涵盖3个左边标签和2个右边标签的窗口,最后一组属性的设置在词行和经验的基础上决定好了。表2显示了训练样例中的单词可以是借词和副词。为了处理特殊的歧义分类设置了新的书写特点,也就是说对于未知的内容将在接下来的章节中进行介绍。参见表3,对整个属性的设置进行了描述。带有多值的属性是根据它的最高频率来动态调整属性值的数目,并且加入一个新的属性值。为了有更均匀的属性,值的最大数目固定在45。2.2.3属性选择的功能测试了几个属性的选择的功能,包括:基尼多样性指数,Quinlan的收益效率,RELIEF-F,但它们没有显著的区别,我们用一个属于以信息理论为基础的范畴的属性选择方法,该方法比其他的方法有更高的稳定性,这证明了无偏属性估计能生成最小代价树,同时不会失去精确度。粗略的说,它定义了一个分区之间的测量距离,并选择分支的属性,产生最近的正确的分区,即一个完全分类
本文标题:机器学习关于词性标注的翻译
链接地址:https://www.777doc.com/doc-6219120 .html