您好,欢迎访问三七文档
1.最简单的方法是利用词性进行特征提取。利用NLP分词及词性标注技术对用户评论进行解析,从中提取名词或名词短语来作为候选特征词。此方法的优点是处理速度快,但缺点同样很明显,受限于NLP固有缺陷,分词准确率不高,导致这种方法的准确率也不够理想。2.为进一步提高准确性,除了词性,我们还可以利用一些固定模式进行特征词提取。[14]提供了一种基于规则的半自动化方法,人为选出几种模式,得到候选的特征词,再进行人工选择,剔除非特征词。这种方法的优点是可以在仅利用词性的基础上进一步提高准确率,且方法简易实现;缺点是准确率严重依赖模式的选择。3.LiuBing[1]提出基于关联分析的特征提取方法。首先对语料库进行词性标注,提取出每个句子中所有名词或名词短语作为一个transaction,而其中每个名词或短语作为一个item,利用关联分析方法,得到频繁集。再删除不是特征词的频繁集。利用关联分析法可找到频率较高的特征词,但找不到低频率的特征词。基于上述思想,利用高频特征词找到对应的观点词,然后利用观点词找出附近低频特征词,可以提高召回率。4.文献[13]提出一种利用互信息(PMI)的特征提取方法。该方法首先提取出频率高于某一阈值的名词或名词短语来作为候选特征词,然后利用搜索引擎计算出候选特征词与产品的互信息(PMI,Point-wiseMutualInformation),依此确定特征词与该产品的相关性。PMI如下所示:其中f代表候选特征词,d代表某种关系的指示词。Hits代表搜索引擎的命中个数,PMI越高,f与某产品的指示关系d程度越高。5.[9]首先利用PennTreebank[18]提取出基础名词短语(BNP),将这些BNP作为候选特征词,接下来分别用混合模型(MixtureModel)和可能性测试模型(LikelihoodTest)进行特征选择。6.我们利用TF-IDF提取TD-IDF值大于阈值的特征词作为特征词集合。TF-IDF公式如下:ni,j代表词i在文档dj中出现的频率;∑𝑛𝑘,𝑗𝑘代表文档dj中所有单词出现的频率。|D|表示语料库中的文件总数。TFIDFij=tfij*idfiTF-IDF倾向于过滤掉常见的词语,而保留重要的词语。为了进一步改进试验效果,在此基础上选出IFIDF大于阈值的特征词。7.《基于观点挖掘的产品可用性建模与评价》中,作者提出特征观点对抽取算法,即抽取产品评论中产品特征(Feature)和相应观点词(Opinion)组成的特征观点对(F,O)。该算法的优势在于不需要人工标注任何数据。1)首先利用分词技术得到分词及词性标注,根据评论语料库来统计词语的词频,来生成词典;2)抽取产品评论中产品特征(Feature)和相应观点词(Opinion)组成的特征观点对(F,O)。3)利用词语相似度来计算观点词的情感倾向。通过计算观点词Oi和正面词汇集P−words={p𝑤1,……,p𝑤𝑚}以及负面词汇集N−words={n𝑤1,……,n𝑤𝑛}的相似度来判断,正面词汇集和负面词汇集选择的是《知网》提供的情感分析用语词语集。相似度计算方法是利用大规模语料库进行计算,从信息论的角度利用互信息计算词语的相似度,而观点词Oi的情感的分等于它和正面词汇的相似度减去和负面词汇的相似度:观点挖掘流程图如下所示:
本文标题:特征词提取方法汇总
链接地址:https://www.777doc.com/doc-2222038 .html