您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 绩效管理 > 基于词典的中文情感倾向文本分析工具
基于词典的中文情感倾向文本分析工具情感倾向可认为是主体对某一客体主观存在的内心喜恶,内在评价的一种倾向。•情感倾向方向•情感倾向度情感倾向目前,情感倾向分析的方法主要分为两类:•基于情感词典的方法;•是基于机器学习的方法。分析方法文本情感分析的分析粒度:•词语;•句子;•段落;•篇章。分析粒度•解决较短文本的情感分析,•篇章级文本情感分析的基础。分析粒度句子级的情感倾向分析:使用工具:语言:java中文分词系统:FudanNLP-1.5情感词典:知网情感词典语言和工具:1、文本切割转换算法分析3、情感聚合2、情感定位•将文档D以换行符”/n”分割成段落P;•将段落P用中文里常用的句号、分号、问号、感叹号划分句意的符号,切割成不同的句子[“。”,”;”,”?”,”!”];•使用FudanNLP中的分词函数,对短句进行分词。1、文本切割转换文本切割的目的是将文本变成我们后续分析需要的格式:“我今天很不高兴。”[(1,“我”,“代词”),(2,“今天”,”时态词”),(3,“很”,”副词”),(4,“不”,”否定词”),(5,“高兴”,“形容词”)]1、文本切割转换2、情感定位单词列表是否为情感词否next标记并存入情感词列表next是否定词的修饰会使情感词语的情感极性发生改变。多重否定:当否定词出现奇数次时,表示否定意思;当否定词出现偶数次时,表示肯定意思。否定词典NotDict,并设置其权值为W=-1。常见的否定词如:不、没、无、非、莫、弗、毋、勿、未、否、别、無、休……否定词和程度副词的优化“我今天很不高兴”当程度副词修饰情感词,该情感词的情感倾向程度发生了变化。否定词和程度副词的优化“今天坐了12个小时的车,身体极度疲惫。”type|权值超|over1.5很|very1.25极其|extreme/最|most2较|more1.2欠|insufficiently0.5稍|slightly0.8程度副词示例①经过文本切割转换[(1,“我”,“代词”),(2,“今天”,“时态词”),(3,“很”,“副词”),(4,“不”,“否定词”),(5,“高兴”,“形容词”)]②情感定位[(5,“积极词”,4),(4,“否定词”,-1)],(3,“程度词”,1.25)]“我今天很不高兴。”篇章级情感倾向通过聚合篇章中所有的句子的情感倾向来计算得出。句子级由句子中所含情感词来计算。3、情感聚合情感值=否定词(-1)*程度词权重*情感词权重“我很不高兴”——分词之后:我很不高兴“我不很高兴”——分词之后:我不很高兴否定词和程度词位置关系W=1;If位置(否定词)位置(程度词):W=-1;意群情感值=W*程度词权重*情感词权重;endIf位置(否定词)位置(程度词):W=0.5;意群情感值=W*程度词权重*情感词权重;end如果句子里出现多个否定词,则处理办法为:Fornin所有否定词:W=-1*W3、情感聚合句子情感值=sum(意群情感值1,意群情感值2……)段落情感值=average(句子1情感值,句子2情感值……)文档情感值=average(段落1情感值,段落2情感值……)3、情感聚合最后可以通过整个文章的情感值的正负号以及权值大小来判断情感倾向是积极的还是消极的。小结Thankyou
本文标题:基于词典的中文情感倾向文本分析工具
链接地址:https://www.777doc.com/doc-3908539 .html