您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 问答系统中文本特征选择及词 语权重计算方法研究 姓名:单丽莉 年级
问答系统中文本特征选择及词语权重计算方法研究姓名:单丽莉年级:2002级专业:计算机科学与技术导师:王晓龙教授副导师:关毅副教授2主要内容1.课题来源与研究目标2.研究现状与基础3.主要研究内容4.结论及将来的工作31课题来源与研究目标z面向体育、旅游领域的自动问答系统z问答系统的核心是自然语言处理技术文本分类—降低检索空间,提高检索效率;文本表示、特征选择、分类算法语义相似度计算—对候选文档或文本片段按与用户问句的相似程度进行排序;词语权重计算—衡量用户问句与文档或文本片段中匹配词语的重要程度42研究现状与基础z向量空间模型z常用特征选择方法z常用的词语权重计算方法5向量空间模型z文档d映射为一个特征向量z问句Q也映射为m维向量其中或为词语在文档或问句中的权重文本分类:文档与文档之间的相似度信息检索:问句与文档之间的相似度向量内积计算相似度:))(),((jidVdVsimilarity))(),(),(()(21dwdwdwdVm=))(),(),(()(21qwqwqwqVm=)(qwi)(dwi))(),((qVdVsimilarity)()(),(dVqVdqST=6向量空间模型文本分类:所有的词语构成的空间维数过大,排除噪音问题1:维数如何压缩问题2:每维上的权重如何计算))(),(),(()(21dwdwdwdVm=7常用的特征选择方法z通过函数计算词语与类别的相关权重实现TFIDF互信息(Mutualinformation)文本证据权(theweightofevidencefortext)信息增益(InformationGain)期望交叉熵(Expectedcrossentropy)∑=llllECECpwCpwCpwPwf)()|(log)|()()(8常用的词语权重计算方法词语在文档中的权重主要由三个因素决定,可以用下面的公式表示:为词语的全局权重因子:通常事先根据训练集统计计算为词语在文档中局部权重因子:通常为词语频度的函数为对文档的规范化因子:降低文档长度不同对权重的影响jijiijNLGw=itjdiGijLjN常用词语全局权重计算公式名称公式标记InversedocumentfrequencyIDFProbabilisticinverseIDFPentropyENPYGlobalfrequencyIDFIGFF⎟⎟⎠⎞⎜⎜⎝⎛−iinnNlog⎟⎟⎠⎞⎜⎜⎝⎛inNlog∑=+NjiijiijNFfFf1loglog1iinF常用词语局部权重计算公式名称公式名称公式Binary增强的规范化频度频度SquarerootLogNormalizedlogOkapi-localweight;00;01=ijjififfif000log1log1=++ijijjijffaf000))(1(=−+ijijjijffxfKK()000log1=−+ijijijfffKK00015.0=+−ijijijfff),(_)(5.15.0),(dttflenavgdlendttfGGG+×+ijf11常用的文档规范化方法z局部权重中考虑zz()∑==miijijLGN021()jjlslopepivotslopeN×+−=11123主要研究内容1.针对中文文本自动分类实验比较了常用的特征选择函数,对性能较好的期望交叉熵和较差的互信息与信息增益函数进行了改进;2.针对问答系统中的语义相似度计算实验比较了典型的词语全局权重计算公式,提出了组合的词语全局权重计算公式;3.提出了一种新的语义组块的全局权重计算公式和一种新的未登录词全局权重计算方法。13常用特征选择函数性能比较1.特征选择方法z训练集:旅游类文档2352篇,分成八类z特征选择函数:TFIDF、互信息、文本证据权、信息增益、期望交叉熵z特征选择过程:统计词频,文档频度等信息计算函数值,取函数值最高的前4000个词语作为特征。14常用特征选择函数性能比较2.分类方法z文本表示:Okapi变形公式z分类算法:KNN⎟⎟⎠⎞⎜⎜⎝⎛+−+×+×+=)(5.0))(5.0(log),(_)(5.15.0),(),(tntnNdttflenavgdlendttfdtwGGGG15常用特征选择函数性能比较3.评价指标:宏平均准确率(MacroPrecision)宏平均召回率(MacroRecall)宏平均F1值(MacroF1)∑==njjPnMacroP11∑==njjRnMacroR11MacroRMacroPMacroRMacroPMacroF+××=2116常用特征选择函数性能比较特征选择函数MacroPMacroRMacroF1TFIDF78.81%72.96%75.77%互信息12.05%15.33%13.50%信息增益2.09%10.97%3.51%文本证据权66.80%56.89%61.45%期望交叉熵85.56%81.76%83.61%17特征选择函数的改进z对互信息的改进——原函数分析∑×≈llMIwPCwPPwf)()|(log)(0∑=lllMIwPCwPCPwf)()|(log)()(∑+×≈lsetlMIMlkMckPwflog)(0∑×+×≈llsetMIMcMlkkPwflog)(0L越小,互信息越大,L等于0时,最大。结果:1、倾向于选择只在某类别中稀有单词。2、大量的词语具有相同的函数值,以致只能随机选择18特征选择函数的改进z对互信息的改进原函数:改进函数:∑=lllMIwPCwPCPwf)()|(log)()(∑=lllMIwPCwPCPwpwf)()|(log)()()('函数MacroPMacroRMacroF1原互信息12.05%15.33%13.50%新互信息79.40%76.50%77.93%TFIDF78.81%72.96%75.77%19特征选择函数的改进z对信息增益的改进公式分析:∑∑+=)()|(log)|()()()|(log)|()()(lllllllIGCpwCpwCpwpCpwCpwCpwpwf排序词语频度S(w)SN(w)信息增益1朝晖13.45959e-00620.802320.802399打字机26.91917e-00620.802220.8022136春播13.61341e-00618.331718.33171170发售28.06416e-00612.972812.97283999耳朵51.32135e-0056.222626.22264特征选择函数的改进z对信息增益的改进原函数:改进函数:∑∑+=)()|(log)|()()()|(log)|()()(lllllllIGCpwCpwCpwpCpwCpwCpwpwf⎟⎟⎠⎞⎜⎜⎝⎛+=∑∑)()|(log)|()()|(log)|()()('lllllllIGCpwCpwCpCpwCpwCpwpwf函数MacroPMacroRMacroF1原信息增益2.09%10.97%3.51%新信息增益87.55%82.17%84.78%期望交叉熵85.56%81.76%83.61%21特征选择函数的改进z对期望交叉熵的改进z原函数:z改进函数:每类别取500个特征合并∑=llllECECpwCpwCpwpwf)()|(log)|()()()()|(log)|()|(),(lllllECECpwCpwCpCwpCwf××=函数MacroPMacroRMacroF1期望交叉熵85.56%84.96%81.76%83.61%新期望交叉熵81.92%83.41%22特征选择函数的改进类别正确率召回率F1值交通指引90.00%100.00%94.74%休闲娱乐100.00%40.00%57.14%地方文化85.71%66.67%75.00%城市概况75.00%90.00%81.82%宾馆饭店71.43%90.91%80.00%旅游景点80.00%100.00%88.89%旅游服务90.00%90.00%90.00%购物美食87.50%77.78%82.35%23特征选择函数的改进z改进函数:z召回率高的类别分别降低100个特征,低的类别分别增加100个特征)()|(log)|()|(),(lllllECECpwCpwCpCwpCwf××=函数合并比例MacroPMacroRMacroF1期望交叉熵/85.56%84.96%87.80%新信息增益/87.55%82.17%84.78%81.76%83.61%新期望交叉熵相同81.92%83.41%新期望交叉熵不同83.45%85.57%24使用新期望交叉熵函数选择特征词集,师兄王强采用KNN分类算法在2003年11月份的国家863评测中,以较大的优势获得了文本分类评测小组第一名的好成绩。25新的词语权重计算方法z组合的词语全局权重计算公式z中文语义组块的权重计算公式z未登录词的全局权重计算方法组合的词语全局权重计算公式名称公式标记InversedocumentfrequencyIDFProbabilisticinverseIDFPentropyENPYGlobalfrequencyIDFIGFF⎟⎟⎠⎞⎜⎜⎝⎛−iinnNlog⎟⎟⎠⎞⎜⎜⎝⎛inNlog∑=+NjiijiijNFfFf1loglog1iinF27组合的词语全局权重计算公式词语ID频度文档数总文档数IDFPIGFF111515002.701562115002.701323495995000.6054561025002.405一个例子:四个词语在训练集中的出现情况及权重比较28组合的词语全局权重计算公式()⎟⎟⎠⎞⎜⎜⎝⎛+−×05.0log2iinnNF词语ID频度文档数总文档数IDFPIGFFIDFGF111515002.70153.872.701.323.1062115002.701323495995000.6054561025002.405新的组合公式:29语义组块的权重计算公式语义组块的划分例子:(城市/n乐园/n)(是/v((南山/ns文化旅游区/ns)的/u子项目/n))组块是递归定义的,组块可以嵌套,即组块本身可以是由更小的组块构成的。结果:有利于正确答案的抽取为权重计算提出了新的任务30语义组块的权重计算公式对于给定的组块,其中是词语或子组块,则组块C的权重定义如下:其中,n为组成组块的成分数量,wc1为词语c1权重niccccC21=ic⎪⎪⎩⎪⎪⎨⎧==∑∑==1111211nWWc,nwWnicniccCii如果是词且如果未登录词的全局权重计算方法思想:为未登录词赋予它的词性类别的权重采用基于词性类别的权重统计方法计算同词性词语权重的:算术平均加权平均最大值其中n为训练集中词性被标注为p的所有词语的数目,wi为词语i的全局权重。nWWniip∑==1∑∑==⎟⎟⎟⎟⎟⎠⎞⎜⎜⎜⎜⎜⎝⎛×=ninjjiip{}inipwMaxW≤≤=132词语全局权重计算公式的性能评价1.全局权重的训练:训练集:人民日报1998年上半年进行了词语切分和词性标注纯文本语料全局权重公式:IDFP、IGFF、IDFGF类别权重:算术平均、加权平均和最大值统计结果:168164个词语的全局权重46个词性类的类别权重33词语全局权重计算公式的性能评价1.实验方法:500个文本片段,200个问句z文本片段权重计算公式:z问句权重计算公式:Giz余弦相似度:1.评价指标ztop10top5MRR∑=××=niiiiiiGtfGtfw122)(∑∑∑===⋅⋅=NiqiNijiNiqijij)()(),(Nk1N1ii∑==Nscoreii∑=34词语全局权重计算公式的性能评价全局公式未登录词公式Top10Top5MRRIGFF算术平均74.26%42.45%IDFP算术平均96.00%69.98%IDFGF算术平均96.00%71.58%IDFGF最大值94.50%69.38%IDFGF加权平均96.00%71.73%354结论z实验比较了常用的特征评
本文标题:问答系统中文本特征选择及词 语权重计算方法研究 姓名:单丽莉 年级
链接地址:https://www.777doc.com/doc-4184956 .html