您好,欢迎访问三七文档
当前位置:首页 > 临时分类 > 机器学习方法在兼类词消歧的应用
基于支持向量机(SVM)的兼类词消歧1概述汉语词性标注问题是中文信息处理领域的基础性研究课题。所谓词性标注就是在给定的句子中判定每个词的语法范畴,确定其词性并加以标注的过程。而自动词类标注的关键是排除兼类词歧义。所谓兼类词就是指在一定的词性标记集下,一个词汇拥有两种或两种以上的词性标记。由此可见,兼类词的数量与给定的词性标记集有关,通常情况下,是词性标记集越详细,兼类情况就越严重。例如,1998年1月份的《人民日报》语料库是用北京大学汉语文本词性标注集标注的,该标注集有43个词类构成,通过统计计算,该语料库中总共有54042个词形,而兼类词有6108个,占11%左右,其中出现频率在30以上的,有410个,占全语料的0.7%。由于在汉语中,词性的兼类现象普遍存在,给词性标注带来了很大困难。因此对兼类词的处理是词性标注的关键所在。兼类词通常分为两类:一、无论分布如何,词义没有发生根本变化。即:同形同音词在不同的分布中同义.也叫单义兼类词。二、当具有不同的分布时,词义有明显的区别。即同形同音词在分布不同时词义也不同。也叫多义词类。在计算机语言信息处理系统中。通常将这两类词都看成兼类词。兼类词的数量虽然不多,但都是常用词,比如“为(p/v)、和(c/v/p)、在(p/v/d)”等,出现频率很高。而且兼类现象很复杂,因此解决好兼类词的标注问题对于提高词性标注的正确率具有重要意义。对于兼类词的处理,可以上溯到20世纪60年代,一些学者就开始对英语语料库的词类自动标注进行研究,1993年,Mashall提出CLAWS算法,利用概率统计模型对LOB语料语料的词类进行自动标注,正确率达到97%,此后,DeRos又在CLAWS的基础上,提出VOLSUNGA算法,使英语语料库的标注达到实用化。当前,几乎所有的词性标注自动标注器都是基于马尔可夫模型的标注。而在汉语方面,周强提出了一种词语切分和词性标注相结合的汉语语料多级处理方法,探索了规则和统计方法相结合的消歧方法在词性标注方面的应用。白拴虎提出了基于统计的汉语切分和词性自动标注一体化模型及实现方法。刘开瑛等利用CLAWS算法和VOLSUNGA算法及其变形算法对汉语语料库进行词类自动标注,正确率达90%。特别是中科院计算所的张华平和刘群研制开发的ICTCLAS词法分析系统,它是基于层叠隐马模型,取得了显著的效果。本文主要介绍了利用如何利用机器学习的分类方法对兼类词进行处理,并对各种方法的实验结果作了比较。2基本概念2.1条件随机场(CRF)在兼类词消歧上的应用最近一种新的分类方法“条件随机场”被用于中文分词和词性标注等词法分析工作,一般序列分类模型常常采用隐马模型(HMM),像基于类的中文分词。但隐马模型中存在两个假设:输出独立性假设和马尔可夫性假设。其中,输出独立性假设要求序列数据严格相互独立才能保证推导的正确性,而事实上大多数序列数据不能被表示成一系列独立事件。而条件随机场则使用一种概率图模型,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注(分类)偏置等问题的优点,而且所有特征可以进行全局归一化,能够求得全局的最优解。2.2最大熵在兼类词消歧上的应用2.3贝叶斯分类在兼类词消歧上的应用2.4支持向量机(SVM)在兼类词消歧上的应用2.4.1SVM的基本原理支持向量机(SupportVectorMachine,SVM)的基本思想是:定义最优线性超平面,并把寻找最优线性超平面的算法归结为求解一个凸规划问题,进而基于Mercer核展开定理,通过非线性映射φ把样本空间映射到一个高维乃至于无穷维的特征空间(Hilbert空间),使其在特征空间中可以应用线性学习机的方法解决样本空间中的高度非线性分类和回归等问题。设给定训练样本{(x1,y1),…,(xn,yn),yi∈{-1,1}},超平面方程为(ω·xi)+b=0,则分类函数就是yi=(ω·xi)+b。将分类函数归一化,使两类样本都满足yi*((ω·xi)+b)1,且离超平面最近的样本的|yi*((ω·xi)+b)|=1,即满足:[()]-10,1,2,...,(1)iiyxbin图1:支持向量机示意图如图1,此时分类间隔等于2/‖ω‖,使间隔最大就等价于使‖ω‖/2最小,并满足式(1)且的分类面H叫做最优分类面,H1,H2上的训练样本点就称作支持向量。对于线形不可分的情况可以通过构造新的特征向量,将问题转化到一个新的空间,也就是利用内积函数的非线性映射将输入向量到一个高维空间中去,SVM能在此高维空间中给出最佳分类超平面,这就是带核的SVM,构造核函数为K(xi,xj)的SVM可以归结为求解条件约束二次函数的极值问题1,11()()(2)2nniijijijiijQyyKxx11s.t.00niiiiiniiiyxCy其中i为Lagrange系数,式(2)解中非零的*i以及对应的ix构成的支持向量集,由此构成的支持向量机为:*1()sgn((,))(3)iniiigxyKxxb目前研究和应用最多的核函数有3种:1)多项式形式核函数:(1)qpolyiKxxq为多项式的阶数,它构成了q阶多项式的分类器;2)径向基(RBF)形式核函数:22||||(,)exp()2irbfixxKxx;3)S形核函数:(,)tanh()sigmoidiiKxxvxxc;由于存在多个核函数,设计一个SVM的重要步骤是选择核函数和核参数(核函数的参数)。Vapnik等人的研究表明,SVM的性能与所选的核函数的类型关系不大,而核参数和误差惩罚因子C是影响SVM性能的主要因素。2.4.2支持向量机在兼类词处理中的实验介绍2.4.2.1数据的预处理在一定标记集下,一个兼类词的词性是由其上下文环境所决定的。例如:他在/v家里(Heisathome)。他在/d看书(Heislearning)。因此,特征的选取一定要用上、下文的信息。经过实验,本文采用某兼类词上下文相应位置的词与该兼类词的某一词性的共现频数跟不是这种词性的相对频数之比的对数。比如:他在/v家里。“他”与“在/v”共同出现n1次,记为:v(-1)=n1,“他”与“在/d”共同出现n2次,记为:d(-1)=n2;则“他”的特征就是:lg[v(-1)/d(-1)];其中“-”表示上文,“+”表示下文。数字表示与兼类词的相对位置序号。如果这个位置没有词,这个位置置为为,因此,这句话的特征就可以表示为:X=(0,0,ln[v(-1)/d(-1)],ln[v(1)/d(1)],ln[v(2)/d(2)],0)]);2.4.2.2遇到的问题及其解决方案存储量过大数据稀疏(1)测试集中的词未必在训练集中出现过,但在训练集中又频繁出现。(2)测试集中的词出现频繁度高,在训练集中频繁度低。(3)测试集中可能是原来在训练集中词的词义相近/相反的词。多于两类的兼类词情况。解决方案:词典中只存常用词。对一些可以互相替换而不影响其语法结构的词,比如人名、地名、可以用类的形式表示。如何解决多分类问题?解决多类分类问题的最简单方法是将多类(c类)问题转化为多个两类问题来处理,常用的处理手段有:“一对多”方法“一对一”方法“逐步一对多”方法“一对多”方法设计c个两类分类器,其中第i个分类器将第i类样本(正侧)与非第i类样本(负侧)分开,这样我们可以得到c个判别函数。线性判别函数的形式为T0(),1,...,iiigwicxwx“一对一”方法设计c(c-1)/2个两类分类器(判别函数),其中一个分类器将第i类与第j类样本分开。对于三类问题,需要设计三个分类器,四类问题需要六个分类器。然后,采用投票法:对于某一个模式向量x,可以代入每一个判别函数,相应地得到其所属的类别,所有的c(c-1)/2个判别函数可以得到c(c-1)/2判别结果,如果判给第i类的结果最多,则x属于第i类。最理想的情况是只有一个判别函数为正、其它判别函数都为负。但是实际情况往往会出现两个或者两个以上的判别函数值为正,全为正或者全为负为了避免出现这样的情况,决策规则设计成:如果:1,...,()max()ijjcggxx则:“逐步一对多”方法:将c类问题逐步转化为c-1个两类问题,相应地设计c-1个两类分类器。第一个分类器将其中一个类样本与其余各个类的样ix本分开,在其余各类中设计第二个分类器,依次类推,直到剩下两个类为止。分解方式与决策规则示意图3实验工具平台及实验材料libSVM是台湾大学林智仁博士等开发的一个SVM软件包。CRF最大熵waka1998年1月份已标注语料4实验结果及分析5结语及展望
本文标题:机器学习方法在兼类词消歧的应用
链接地址:https://www.777doc.com/doc-2378754 .html