您好,欢迎访问三七文档
搜索引擎中的查询扩展技术概述提纲•查询扩展技术的作用•各类查询扩展技术介绍•基于语义的查询扩展技术查询扩展技术的作用•查询扩展(QueryExpansion)是查询优化的一个分支研究方向,目前己经成为改善信息检索中查全率和查准率的关键技术之一。•另外的查询优化技术有查询结果优化技术等。查询扩展技术的作用•该技术指的是利用计算机语言学,信息学等多种技术,在原用户查询词的基础上通过一定的方法和策略把与原查询词相关的词、词组添加到原查询中,组成新的、更能准确表达用户查询意图的查询词序列,然后用新查询对文档重新检索,从而改善信息检索中的查全率和查准率低下的问题,解决信息检索领域的词不匹配问题,弥补用户查询信息不足的缺陷。查询扩展技术的作用•目前扩展词的来源:1.初次检索中认为相关的文档2.从用户日志或文献集中挖掘3.某种包含词与词间相关信息的资源各类查询扩展技术介绍•语义概念查询扩展技术•全句分析•局部分析•基于用户查询日志•基于社会标签的查询扩展全局分析1.基于语词全局聚类的查询扩展技术•思想:对文档集中全部词语根据词的共现进行聚类,生成不同的簇,向查询中加入包含该查询关键词的类中的某些关键词来对其扩展。•优缺点:不能处理词的歧义性,该方法可能将词分配到不同的类别中,从而使查询结果更含糊,查询性能可能会下降。全局分析2.基于相似性叙词表的查询扩展技术•思想:根据词语之间的共现概率建立相似性叙词表,记录全部文档中每一对词的共现概率。•优缺点:需要计算每一对词的共现概率,使其计算要求较高,查询效率有所下降。全局分析3.基于潜在语义索引(LSI)的查询扩展技术•思想:通过使用检索词的共现信息进行奇异值分解(SVD),来发现检索词之间的重要关联关系,计算出上下文相似的词,实现查询扩展。•优缺点:提高查全率,但查准率有所降低;对同义词解决较好,但对一词多义问题只能部分解决。局部分析1.基于相关反馈的查询扩展技术•思想:先使用初始查询对文档进行检索,然后根据检索的结果,通过用户的判断得到关于哪些文档是相关的、哪些文档是无关的反馈信息;接着从那些用户认为与查询相关的文档中选择重要的词,在新的查询中增强这些词的权重;对同时出现在与查询不相关文档中的词,降低其权值;对起负面影响的词,还可以从查询中删除。•优缺点:必须由用户提供相关性的判断,并且RoCChio方法中的参数必须通过大量的实验才能在某个文档集中得到最优的参数设定。局部分析2.基于局部反馈的查询扩展技术•思想:局部反馈是由相关反馈技术衍生的。首先利用初始查询进行检索而得到中间文档集,并假设这些文档与查询条件是相关的;再对中间文档集中的关键词进行聚类;然后将关键词的聚类加入到初始查询条件,从而对其进行扩展。•优缺点:与全局聚类相比开销小,提高检索效率。但若中间文档与用户查询相关度很低,则该算法会降低检索性能,也就是说,该算法对初始检索结果非常敏感。局部分析3.基于局部上下文分析的(LCA)查询扩展技术•思想:从初检出的文档中选出与原查询词共现的概念,计算每一个概念与整个查询的相似度并排序,排在前面的概念作为扩展词。•优缺点:解决了全局分析中计算量大及局部反馈中初值敏感的问题。基于用户查询日志•用户查询日志是众多用户使用检索系统时多次“反馈”结果的积累,对它的分析相当于使用大量用户的相关反馈。•思想:在用户查询一记录的基础上建立用户查询空间,在文档集上建立文档空间,根据用户日志将两个空间中的词,按照用户提交某个查询所点击的文章以条件概率方式连接起来。当新查询到来时,系统选取当该查询出现时被选择成为扩展用词的条件概率最大的文档用词加入查询。•优缺点:分析用户日志需要大量的积累过程。基于社会标签的查询扩展•思想:利用用户收藏的标签,提取标签中的关键词,对标签进行聚类分成若干兴趣类,再度查询时,根据用户查询所属类别的关键字进行扩展。•优缺点:用户主动收藏的标签可以根本的反应用户兴趣。基于语义概念查询扩展技术•传统的查询扩展忽略了语义及概念语义之间的关联扩展,不能从根本上表达用户查询意图。这就需要从语义概念层面上对查询进行扩充。•分类:基于大规模语料库和基于语义关系/语义结构。•基于大规模语料库的方法,主要利用词语的共现性大则相关度也大的规律,计算词语的相关性,实现扩展。•基于语义关系/语义结构的方法,主要利用语义词典等工具,计算词语之间的相似、相关度,实现扩展。基于语义概念查询扩展技术•关键问题:概念语义空间的建立和查询语义的提取。•概念语义空间:主要是用来确定语义关系的,现主要形式有分层组织结构,领域本体,语义网,语义词典。基于语义概念查询扩展技术•查询语义提取操作:同义扩展操作细化扩展操作泛华扩展操作实例化扩展操作抽象化扩展操作基于语义概念查询扩展技术•思想:首先建立语义空间,从中提取出与用户查询语义相似或相关的词,实现对用户查询的语义扩展。•现在很多人利用统计共现概率的方法计算查询词的相关词,从而实现查询扩展。在这个过程中,有些还加入反馈技术,调整查询词,使扩展后的查询词更符合用户的需求。基于语义概念查询扩展技术•我们可以将基于语义词典的查询扩展与反馈技术融合,在根据语义词典计算相似度和相关度的过程中,加入用户反馈因素。•第一步:在初次查询中,利用传统的词语相似度、相关度计算方法,计算出指定数量的扩充词,实现初次扩展。•第二步:利用初次扩展后的查询词,进行初次查询,得到中间结果。•第三步:根据用户反馈信息,进行扩展调整,在语义计算公式中加入反馈因素,重新计算出与原查询相似或相关的词语,进行二次检索。Thankyou!
本文标题:查询扩展
链接地址:https://www.777doc.com/doc-4685265 .html