您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 薪酬管理 > 64-情感语料库的构建和分析
大连外国语学院学士学位论文中文题目:情感语料库的构建和分析英文题目:ConstructionandAnalysisofEmotionalCorpus二级学院:俄语系学科、专业:阿拉伯语专业研究生:徐慧指导教师:曾磊副教授2011年11月情感语料库的构建和分析情感语料库的构建和分析*徐琳宏,林鸿飞(大连理工大学计算机科学与工程系,大连116024)摘要:本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题:制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近四万句,一百万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。关键词:情感语料库;文本编码规范;一致性检查;情感迁移中图法分类号:TP391文献标识符:AConstructionandAnalysisofEmotionalCorpusXuLinhong,LinHongfei(DepartmentofComputerScienceandEngineering,DalianUniversityofTechnology,Dalian116024)Abstract:Thispaperintroducedsomeexperiencesonconstructingemotionalcorpus,anddiscussedseveralbasicquestionswhichincludedthetaggingcriterion,taggingset,taggingtoolsandqualitymonitoring.Therewereabout40000sentencesinthecorpus.Moreoverbasedonthese,statisticaldataaboutemotionaldistributionandrulesofemotionaltransferencewereavailable,andcharactersandapplicationsofcorpuswereanalyzed,soemotionalcorpusprovidesupportfortextaffectivecomputing.keywords:emotionalcorpus;TextCodingInitiative;consistencychecking;emotionaltransference1引言情感计算目前是人工智能领域的研究热点,它的主要目标是使计算机能识别人类的情感,也就是需要建立完善的情感识别模型。然而要使训练的模型准确,容错能力强,就必须有大规模的情感语料支撑。*基金资助:国家自然科学基金资助项目(编号:60373095,60673039)和国家863高科技计划资助项目(编号:2006AA01Z151)。作者简介:徐琳宏,女,硕士生,研究方向为文本分类和文本倾向性识别;林鸿飞,男,博导,教授,研究方向为文本过滤,文本挖掘和自然语言理解,hflin@dlut.edu.cn;情感语料库的构建和分析在国外,语料库的研究很早就已经开始了,也建设完成了许多大规模的语料库,如Brown语料库等。汉语语料库的建设开始于20世纪80年代,现有的大规模语料有国家现代汉语语料库[1]、台湾中央研究院平衡语料库[2]、中港台汉语语料库[3]、北京大学和富士通公司共同制作的人民日报语料库[4]等。上述大规模语料库的建设在收集语料,制定标注规范和质量监控等方面积累了宝贵的经验。文本情感语料库的建设方面,目前已有的语料库包括Pang语料库[5],Whissell语料库[6],Berardinelli电影评论语料库[7],产品评论语料库[8]。汉语情感语料库标注方面的资源则较少,清华大学标注了部分旅游景点的描述的情感语料[9],用来辅助语音合成的,但是规模也较小。总之,在国内情感计算刚刚兴起,这方面还没有比较大规模、权威的汉语文本情感语料库。大部分语料库的建设分为语料的收集和预处理、标注规范的制定,质量监控等几方面,下面的论文将分别阐述语料库建设的各个步骤。第2节概略的介绍了目前选择语料的类型和规模,第3节详细地介绍了情感语料库的标注体系,第4节介绍了语料建设中质量监控的方法,包括正确性和一致性检查的方法。第5节阐述了语料库的一些统计数据及应用,最后,第6节总结语料库的优点和不足,并进一步提出改进的措施。2语料的收集语料的收集工作,即选择合适的语料,做预处理,为语料的标注提前做好准备。语料选择的方法关系到语料库的覆盖率,所谓覆盖是指语料在各个不同领域的分布或散布,这些不同领域通常是指由时间轴(反映时代特征)、空间轴(反映地域特征)、学科轴(反映知识特征)、风格轴(反映语体特征)构成的四维模型[10]。我们的语料包括小学教材(人教版),电影剧本,童话故事,文学期刊等。从时间轴上看,有童话故事和小学教材等完成较早的经典文章,也有期刊和电影剧本等近一年多的作品。语料以中文的作品为主,但是也有部分电影剧本和童话故事是外文翻译而来,考虑了地域特征的跨度。在风格方面,小学教材等用词比较规范、严谨,而电影剧本等则口语特征比较明显。总的来说,语料的选择偏重于文学色彩比较浓,情感表达丰富多彩的作品,舍弃一些科学说明性的文章。表1列出了各类语料的详细信息。表1语料的详细信息语料来源详细说明字数词数句子数篇章数小学教材人教版,12册129,48691,0324,809171电影剧本《狮子王》、《汽车总动员》等6个电影剧本84,11854,0925,911237童话故事部分格林童话、安徒生童话5,406639,0052,01173文学期刊《少年文艺》、《青年文摘》、《新青年》等9本期刊的2006年全年12期6,308,5264,375,396237,2903754总计6,576,1964,559,525250,0214,2353情感语料库的标注体系语料库的标注体系就是指对语料的加工程度,即一个待标注的单元需要填充的信息集合。标注体系决定了语料标注的粒度。如果类别划分过粗,就不能全面、细致地描述语言的复杂现象;但如果类别划分过细、标注信息过于庞大,不但会增加标注难度、降低标注效率,关系之间只有细微差别的情况也会使标注结果呈现严重的不一致性[11]。此外,在语料库规模有限的情况下,类别分的太细,统计数据的稀疏问题越严重,那么训练出来的模型健壮性情感语料库的构建和分析就越差。可见,语料库的标注体系是构建一个高质量、大规模语料库的关键。3.1情感标注体系理想的情感标注体系是在标注前事先确定,在标注过程中保持不变,这样可以保证标注的一致性。但是由于语料的多样性和复杂性,标注规范也需要多次修正,这就可能导致语料库的质量下降。为了充分考虑各种特殊情况,本文预先标注了部分语料,在总结标注中发现的问题的基础上,综合考虑其他类型语料的标注经验和文本情感标注自身特点,制定了如下的标注体系:DocumentModel=(title,author,style,source,persons,sentences,keynote)(1)SentenceModel=(origin,sender,[accepter],[rhetoric],emotions,[keywords])(2)由上面两个公式可以看出本文的情感标注体系的标注粒度分为词汇、语句和篇章。其中语句是主要的情感标注粒度,词汇和语篇的相关信息都是语句情感标注的辅助。方括号内的变量accepter、rhetoric和keywords是可选的,其他的是不能为空的。语篇和语句标注模型中各变量表示含义和取值范围如下:表2标注体系中各变量的说明类别变量说明取值范围语篇标注模型(documentModel)title文章题目author作者姓名,国籍,作品写作年代style类别散文|诗歌|小说|戏剧source来源小学教材|格林通话|电影剧本|文学期刊persons情感主体主人公1|主人公2…|主人公i…sentences所有语句的标注集合详见sentenceModelkeynote情感基调o|h|e|i|m|f|d|s语句标注模型(sentenceModel)origin原始语句sender本句的情感主体主人公iaccepter情感的接受者主人公irhetoric修辞类别比喻|比拟|借代|夸张|对偶|排比|设问|反问|重复emotions本句包含的所有情感o|h|e|p|r|b|l|k|c|i|s|w|g|m|u|f|x|t|d|a|j|y|qkeywords确定情感的关键词词1|词2…|词i…在上述变量中persons、sentences、emotions和keywords取值都是一个集合,即变量的取值可以表示为一个向量,如persons=(persona1,persona2…,personai…),变量sender和accepter分别选择persons中的一个分量作为变量值。需要说明的是persons中包含两个特殊的情感主体,“旁白”和“其他”。“旁白”表示该句是作者的叙述,没有鲜明的情感发出人,而“其他”是为了处理当一篇文章中涉及的任务较多时,所有非主要人物发出的情感都用它代替,这样可以减轻标注者的负担,又能防止某个情感主体出现次数较少的数据稀疏问题。变量sentences是所有语句情感标注的集合,每个语句标注的内容就是语句标注模型中声明各个变量。keywords中的值是原始语句中对表达该句情感有决定作用的词,标注keywords是为了更准确地确定语句中代表情感的词汇。而实验证明,情感词汇的特征在语句的情感自动标注中是一个区分度较大的特征[12]。另外,否定词和程度副词对句子情感色彩影响也较大,特别是对语句的褒贬倾向性影响较大[13],但是本文的标注体系没有标注这两方面的信息,这主要是为了提高标注效率,所以没有列入标注体系。变量keynote的取图1中的所有分支节点。变量emotions的取值是由图1叶子节点中的一个或几个组成的向量。情感语料库的构建和分析3.2基于TEI的标注集选择选择标注集就是选择合适的标注附码和便利的表示方式来存储标注后的语料。英国著名语言学家Leech是当今语料库语言学的代表人物之一,他认为(1993)语料的标注应该遵循标注附码可以删除;所作的标注可以单独抽出;任何标注模式都不能作为第一标准等七个基本原则。本文在综合考察已有的各种标注集优缺点的基础上,结合自己语料库的实际应用情况,以半结构化的方式表示已标注的文本。图1情感分类树本文标注集的选择是在TEI(TextEncodingInitiative)的基础上,结合情感标注的特殊需求制定的。TEI(TextEncodingInitiative)是机读语篇的国际信息编码规范。TEI标注模式是由计算语言学学会(ACL,AssociationforComputationalLinguistics)、文学与语言学计算协会(ALLC,AssociationforLiteraryandLinguisticComputing)和计算机与人文科学学会(ACH,AssociationforComputersandHumanities)等三家学术团体共同参与制订的。“英国国家语料库”(TheBritishNationalCorpus)等许多大型语料库都采用了TEI的标注模式。根据TEI标注模式,一篇语料分为篇头(header)和篇体两部分。篇头指与语篇有关的背景信息,包括作者、标题、日期、语篇来源、标注方式等信息,而篇体是指语篇本身。在TEI标注模式中语言单位可以是词、句子或段落等,每个语言单位都有起始标记(starttag)和结束标记(endtag)。例如,段落的开始和结束标记分别为p和/p。图2语料标注示例情感语料库的构建和分析在本文的标注集中通用的信息,如篇头,段落等采用TEI的标记规范。另外定义一些标签来标记情感标注中特有的信息,标签的定义以简洁,易
本文标题:64-情感语料库的构建和分析
链接地址:https://www.777doc.com/doc-2895007 .html