您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 国内外标准规范 > TF-IDF:传统IR的相关排序技术(二)
TF-IDF:传统IR的相关排序技术(二)概念介绍:词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。反文档频率,专业术语称之为逆文档频率;是文档频率(DFdocumentfrequency)的倒数主要用于概念TF-IDF(termfrequency–inversedocumentfrequency)中。问题:公式:逆文档频率(idf)=log(文档总数/包含关键词的文档数量)如何获得上述公式中的“文档总数”与“包含关键词的文档数量”?举例:每篇文章每个网页几乎都含有“的”这个字。在搜索引擎中搜这个字,出来的结果数量可以理解为所有的文档数量,然后再搜你的目标词即为包含这个词的文档数量,这一数据也就得到了解决,eg:反文档频率有了这些数据,接下来看看能够做些什么出来。将网站中每个网页进行分词,去掉语气助词停顿词之后按照tf-idf值从大到小进行排序。网页A={a1,b1,c1,d1,e1……z1}网页B={a1,b2,c1,d5,e2……z6}网页C={a2,b1,c2,d1,e2……z2}……显然从{a1,b1,c1,d1,e1……z1}中就可以了解到网页A所表达的意思,B、C亦然。如果通过一个方法将A、B、C中的词进行比对,专业就可以算出页面之间的相似程度。余弦值具体操作:首先从A、B、C中选出前N个可以表达页面主题的词,组成一个集合。{a1,c1,d1,e1,b2,d5,e2,a2,b1,c2}然后计算A、B、C页面针对这个集合中每个词的词频(如有必要,请使用相对词频),组成对应的向量。A=[2,1,3,5,0,0,0,0,1,0]B=[……]C=[……]请记住这个高中时就学到的公式。余弦值与相似度OK,经过此公式的计算,不但是页面之间的相似度,同样一个页面最相关的推荐文章也即可由此产生。题外延伸:TFIDF的理论依据及不足之处:TFIDF算法是建立在这样一个假设之上的:对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。另外考虑到单词区别不同类别的能力,TFIDF法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,调整权值的目的在于突出重要单词,抑制次要单词。但是在本质上IDF是一种试图抑制噪音的加权,并且单纯地认为文本频数小的单词就越重要,文本频数大的单词就越无用,显然这并不是完全正确的。IDF的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TFIDF法的精度并不是很高。此外,在TFIDF算法中并没有体现出单词的位置信息,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此应该对于处于网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果。
本文标题:TF-IDF:传统IR的相关排序技术(二)
链接地址:https://www.777doc.com/doc-8637881 .html