您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 其它办公文档 > 基于依存关系树句子级别的情感分类研究
基于依存关系树句子级别的情感分类研究摘要:随着互联网的快速发展,网络上的信息呈爆炸式增长,其中主观性文本占有的比例大大增加。本文主要研究句子级别情感分类问题。在详细分析了句子情感分类问题的重要性和难点的基础上,本文提出了一种基于树核函数的句子级别情感分类方法。该方法使用基于SVM(SupportVectorMachine)的卷积树核函数自动获取句法结构信息,分别将句法树和依存树作为特征,和其它平面特征相结合,对句子进行情感分类。关键词:情感分析、依存关系树、特征选择、分类算法Abstract:Safenavigationoftheshipandtheshipcollisionavoidanceareas,researchandcomputingcollisionriskiscrucial,inthefiniteelementsimulationanalysisofshipcollision,thecollisionwillnormallybeprocessedintothesideimpactareadeformablestructure,hittheship'sbowasarigidbodytreatment,whichcangreatlysimplifytheanalysisandcalculations,butalsothepartialsafetycangenerallybeusedasapproximateresults.However,fromtheperspectiveofcollisions,consideringboththerealcollisiondeformationandenergyabsorptionofthecollisionprocessisessentialrealisticsimulation,thispaperuseslarge-scaledynamicanalysissoftwareMSC.Dytran,bowportionandoncrashhitbroadsidecollisiondamagecharacteristicsofsynchronoussimulation.Keywords:Collision;shipstructuraldamage;impactangle;impact1前言近年来,随着BBS和Blog的迅速发展,主观性的言论越来越多。这些言论大部分都是一些主观的论断和对事物的一些看法,如对电子产品、汽车的使用评价和电影评论等等。那么,如何判断这些评论是正面还是反面?态度是赞成还是反对?认为其值得推荐还是不值一文?这就引出了文本分类领域一个新的研究方向——基于情感的文本分类。本文针对目前句子情感分类问题的难点,采用树核函数、句法树和依存树实现了句子级别的情感分类的研究工作。句子中含有的信息量少,因而需要额外的特征信息来提高其分类的效果,本文探索了使用基于句法树和依存树的结构化信息对于句子情感分类的效果。本文只针对句子进行情感分类研究。2基于句法树的句子级别情感分类分析2.1结构化特征在句子级别情感分类中的作用句子含有的信息量不如篇章,直接使用篇章级别的情感分类方法无法提取足够的特征信息,所以需要加入更多的特征信息。并且基于词袋或者n-gram特征的篇章级别情感分类方法都无法捕获远距离的情感信息。本章的主要工作就是探索基于句法树的结构化特征在句子级别情感分类中的作用。照片尺寸为20mm*30mm;最好不用红色背景图2.1两个句子对应的句法树图2.1表示的是句子“Ilikethatfilm”和“Thisfilmlookslikethatfilm”对应的句法树。如果使用n-gram特征,很可能会认为这两个句子的情感倾向性一致。但是通过句法树可以很容易发现:虽然两个句子中都含有“likethatfilm”结构,但是这个相同的部分在两个句子的句法树结构中是不同的。这种情感倾向性的差异表达可以通过句法结构展现出来。但如果单纯的使用人工去总结和标注这些规则存在很大的困难,首先这样需要领域专家去总结这些规则;其次由于自然语言表达的复杂性,人们很难穷尽所有规则。所以通过机器学习的方法,从已经简单标注或者没有标注的文本中自动挖掘这种情感表达模式,有着很大的实际价值和良好的运用前景。2.2句子级别情感分类系统流程本文实现的句子级别情感分类系统的具体流程如图2.2所示。图2.2系统流程图本系统由多个模块组成,初始的原始语料是从评价性网站上获取的用户评价信息,经过预处理以后删除那些有乱码或者单词拼写错误的句子。下一步将获取的句子交由Stanfordparser1生成句法树,然后为每个句子标明类别标签等信息以满足SVM分类器需要的格式,生成训练和测试数据。接下来使用训练数据获得模型文件,并使用该文件对测试数据进行分类测试,然后计算出分类的性能。2.3句法树的获得本文的重点是研究如何以卷积树核为工具去提取句法树中的情感表达模式,用于句子级别的情感分类研究中。本文研究中使用SVM-light-TK2作为分类器,SVM-light-TK工具是在SVM-light3的基础上,提供对卷积树核函数的支持。它的训练数据的输入格式如图2.3,整个格式分成三部分:首先是类别标签,用于标示该对象属于正例还是负例;其次是句法树特征,即括号表示的句法树,该特征以“|BT|”为标志开始、“|ET|”标志结束;最后是基本特征。图2.3包含句法树特征的SVM样例本文通过Stanford-parser工具包获取句法树,该工具包是斯坦福大学的相关人员使用Java语言编写的一个开放源代码的概率性的自然语言语法分析器。它可以分析出句子的词性标注信息、句法树结构信息以及词语之间的依存信息。2.4核函数方法和卷积树核近些年的自然语言处理领域中,越来越多的研究者使用卷积树核挖掘结构化信息来解决自然语言处理的某些问题。SVM提供了对于卷积树核(Collins等)的支持,本节简单介绍核函数,卷积树核和复合核的基本知识。2.4.1核函数方法许多的机器学习算法只是涉及到在特征空间中进行向量之间的点积,其中每个对象都由一个特征来表征。核函数可以看成一种基于特征算法的泛化(Generalization)的表示,它使用两个向量的核函数Ψ(X,Y)来代替点积。从数学上来说只要Ψ(X,Y)是对称的,并且由其产生的核矩阵是半正定的,那么它就会在一个隐式的希尔伯特空间(ImplicitHilbertSpace)中形成一个有效的点积。在这个隐式的希尔伯特空间中,一个核可以分解为多个特征,并且特征的维数可以是无限的。所以核函数是解决高维特征分类问题的一个很好的选择。使用核函数与传统基于特征的算法之间的对比关系如图2.4所示。图2.4显示了核函数与传统基于特征的算法之间的对比关系2.4.2卷积树核本章采用Collins和Duffy(2001)提出的卷积树核函数(ConvolutionTreeKernel,CTK),即两棵树之间的相似度可以通过计算它们之间的相同子树的数目来实现。递归计算:其中#ch(n)是节点n的子节点数目,ch(n,k)是节点n的第k个子节点,而λ(0λ1)则是衰退因子,用来防止子树的相似度过度依赖于子树的大小。2.4.3复合核复合核在情感分类中也可以体现其价值。复合核的树核函数通过对句法树计算为情感分类提供结构化信息,而复合核中的基本核则可以包含一些无法通过树核函数捕获的信息。比如可以在基本核中标注出该句中含有的情感字典中词语,这样就可以在复合核中引入一些对于情感分类很重要的信息,进而提高情感分类的准确率。2.4.4树核空间子树(ST)是指由原来的树结构中任意一个节点和其所有后代节点构成的一棵子树,子集树(SST)的构成相比子树更加自由,不要求包含一个节点的所有后代节点。所以子集树的叶子节点可以是原来树结构的非叶子节点。子集树(SST)虽然结构比子树(ST)自由,但是子集树必须满足一个约定:不能破坏语法规则(GrammaticalRules)。所以“(NP(DTNN))”是一个子集树,但是“(NP(DT))”却不是子集树。如果不遵守这个语法规则,得到的更加一般化的结构称为局部树(PartialTrees,PTs),但是本文的研究不考虑局部树的情况。在后面的试验中本文将对比子树(ST)和子集树(SST)在情感分类中的性能。3实验结果与分析3.1数据集本文的语料来源于BoPang和LillianLee的电影评论数据库,该数据库中包含5331个正向情感的电影评论片段(snippet)和5331个负向情感的片段。从中随机选取1800个单句(900个正向情感句,900个负向情感句)的评论作为实验语料。按照Pang等的试验设置,对于数据集使用了3层交叉验证。每层的数据都是600句,其中包含300个正向情感句和300个负向情感句。3.2实验设置试验参数设置如下:在以wordunigram和wordbigram为特征的两个试验中,使用SVM中的线性核,其参数使用SVM-light的默认值。在进行有关树核函数的试验中,使用SVM-light-TK工具包,其在SVM-light的基础上添加了对树核函数的支持。对于单纯的树核实验(不使用混合核),本文设置SVM-light-TK的C参数值为“T”;对于混合核实验,设置C参数值为“+”。其余参数如果不做特殊说明即为SVM-light-TK的默认值。3.3树核的实验结果首先使用Stanfordparser把语料中的主观性句子转化为句法树,然后把这些FT直接交由SVM训练;接着使用3.7节提到的剪裁树和剪枝策略,把FT剪裁为MCT和PT,然后交由SVM训练。最后的结果如表3.1所示。表3.1FT、MCT和PT情感分类的结果通过上面的实验中分类器预测的数据和测试数据的对比,发现了分类出错的句子存在以下的特点:1.分类出错的句子中长句占据的比例比短句要很多。2.分类中出错的句子中,含有情感转移的句子出错率很高。3.在分类出错的句子中,有很多句子本身就是有语法错误的,或者根本就是不通顺的句子。3.4复合核中平面特征和结构化特征的贡献复合核是由基于平面特征的基本核和基于结构化特征的树核,按照一定得比例复合而成的。具体的公式在此:λK1+(1-λ)K2复合核。其中K1表示由结构化信息所得的卷积树核,而K2表示由基本特征所得的基本核。在这个实验中,通过改变公式中λ值来分析基本核和树核在复合核中的贡献度。表3.2的结果显示λ=0.2和0.1时,分类效果最佳,得到了基于句法树实验中最好的F1值72.49%。表3.2复合核中平面特征和结构化特征的贡献3.5不同情感词典对分类性能的影响这里使用两个情感词典:实验中本文分别使用这两个情感词典对FT进行基于情感词的裁剪,然后比较各自的分类性能。结果如表3.3所示。表3.3不同情感词典的分类性能从上面的实验结果可以看出,基于词典D2的情感分类的效果要好于D1。这也符合情感分类对于领域依赖的特点。同时可以看出D2的分类结果中,准确率(Precision)没有什么改变,但召回率有比较大的提升,这说明D2中添加的领域相关的情感词发现了更多的情感表达。3.6子树核与子集树核实验结果表明:在句子级别情感分类研究中,子集树核比子树核的效果更好。这是因为子树的生成规则导致核空间中的子树数目比子集树核要少,并且子树中的节点必须包含其所有孩子节点,这样就导致在比较句法树时,其相似度下降。表3.4子树核与子集树核的实验结果4结论本文研究树核函数在句子级别情感分类中的贡献,主要取得了以下的一些成果。1.将树核函数应用到句子级别情感分类研究中,证明的结构化信息可以帮助句子级别情感分类工作。2.将句法树应用于句子级别情感分类研究中,针对完整句法树会引入过多噪音的问题,对句法树进行适当的裁剪,将一些噪音分枝剪掉,同时提出了基于形容词和情感词的两种不同裁剪方法,尽量达到最大化保留有用信息,去除无用信息。实验表明合理的裁剪可以提高系统的分类性能。3.针对多形容词的句法树,提出了一种动态的剪枝算法。该算法可以更好的
本文标题:基于依存关系树句子级别的情感分类研究
链接地址:https://www.777doc.com/doc-2573440 .html