您好,欢迎访问三七文档
IntroductiontoInformationRetrieval现代信息检索中科院研究生院2011年秋季课程《现代信息检索》更新时间:ModernInformationRetrieval授课人:王斌~wangbin*改编自”AnintroductiontoInformationretrieval”网上公开的课件,地址第9讲相关反馈及查询扩展RelevanceFeedback&QueryExpansion12011/10/11提纲2❶上一讲回顾❷动机❸相关反馈基础❹相关反馈详细介绍❺查询扩展提纲3❶上一讲回顾❷动机❸相关反馈基础❹相关反馈详细介绍❺查询扩展上一讲回顾信息检索的评价方法不考虑序的评价方法(即基于集合):P、R、F考虑序的评价方法:P/R曲线、MAP、NDCG信息检索评测语料及会议检索结果的摘要4现代信息检索5正确率(Precision)和召回率(Recall)正确率(Precision,简写为P)是返回文档中真正相关的比率召回率(Recall,R)是返回结果中的相关文档占所有相关文档(包含返回的相关文档和未返回的相关文档)的比率5现代信息检索6正确率vs.召回率P=TP/(TP+FP)R=TP/(TP+FN)6现代信息检索7F允许正确率和召回率的折中whereαϵ[0,1],b2ϵ[0,∞]常用参数:balancedF,b=1orα=0.5实际上是正确率和召回率的调和平均数(harmonicmean)7正确率和召回率相结合的指标:F值现代信息检索8正确率-召回率曲线每个点对应topk上的结果(k=1,2,3,4,...).插值(红色):将来所有点上的最高结果插值的原理:如果正确率和召回率都升高,那么用户可能愿意浏览更多的结果8现代信息检索9平均的11-点正确率/召回率曲线计算每个召回率点(0.0,0.1,0.2,...)上的插值正确率对每个查询都计算一遍在查询上求平均该曲线也是TREC评测上常用的指标之一9MAP平均正确率(AveragePrecision,AP):对不同召回率点上的正确率进行平均未插值的AP:某个查询Q共有6个相关结果,某系统排序返回了5篇相关文档,其位置分别是第1,第2,第5,第10,第20位,则AP=(1/1+2/2+3/5+4/10+5/20+0)/6多个查询的AP的平均值称为系统的MAP(MeanAP)MAP是IR领域使用最广泛的指标之一1011NDCGBV(BestVector):假定m个3,l个2,k个1,其他都是012NDCGNormalized(D)CG另一种NDCG的计算方法加大相关度本身的权重,原来是线性变化,现在是指数变化,相关度3、2、1在计算时用23、22、21据说搜索引擎公司常用这个公式13现代信息检索14标准的评价会议:TRECTREC=TextRetrievalConference(TREC)美国标准技术研究所(NIST)组织TREC实际上包含了对多个任务的评测最出名的任务:TRECAdHoc任务,1992到1999年前8届会议中的标准任务TRECdisk包含189百万篇文档,主要是新闻报道,有450个信息需求由于人工标注的代价太大,所有没有完整的相关性判定然而,NIST采用了一种所谓结果缓冲(pooling)的办法来进行人工标注,首先将所有参测系统的前k个结果放到一个缓冲池(pool),然后仅对缓冲池的文档进行标注,并认为所有的相关文档均来自该缓冲池中。14现代信息检索15动态摘要给出一个或者多个“窗口”内的结果(snippet),这些窗口包含了查询词项的多次出现出现查询短语的snippet优先在一个小窗口内出现查询词项的snippet优先最终将所有snippet都显示出来作为摘要15现代信息检索16一个动态摘要的例子查询:“newguineaeconomicdevelopment”Snippets(加黑标识)thatwereextractedfromadocument:...Inrecentyears,PapuaNewGuineahasfacedsevereeconomicdifficultiesandeconomicgrowthhasslowed,partlyasaresultofweakgovernanceandcivilwar,andpartlyasaresultofexternalfactorssuchastheBougainvillecivilwarwhichledtotheclosurein1989ofthePangunamine(atthattimethemostimportantforeignexchangeearnerandcontributortoGovernmentfinances),theAsianfinancialcrisis,adeclineinthepricesofgoldandcopper,andafallintheproductionofoil.PNG’seconomicdevelopmentrecordoverthepastfewyearsisevidencethatgovernanceissuesunderlymanyofthecountry’sproblems.Goodgovernance,whichmaybedefinedasthetransparentandaccountablemanagementofhuman,natural,economicandfinancialresourcesforthepurposesofequitableandsustainabledevelopment,flowsfromproperpublicsectormanagement,efficientfiscalandaccountingmechanisms,andawillingnesstomakeservicedeliveryapriorityinpractice....16现代信息检索17本讲内容交互式相关反馈(Interactiverelevancefeedback):在初始检索结果的基础上,通过用户交互指定哪些文档相关或不相关,然后改进检索的结果最著名的相关反馈方法:Rocchio相关反馈查询扩展(Queryexpansion):通过在查询中加入同义或者相关的词项来提高检索结果相关词项的来源:人工编辑的同义词词典、自动构造的同义词词典、查询日志等等。17提纲18❶上一讲回顾❷动机❸相关反馈基础❹相关反馈详细介绍❺查询扩展现代信息检索19搜索中提高召回率的方法本讲的主题:两种提高召回率的方法—相关反馈及查询扩展考虑查询q:[aircraft]...某篇文档d包含“plane”,但是不包含“aircraft”显然对于查询q,一个简单的IR系统不会返回文档d,即使d是和q最相关的文档我们试图改变这种做法:也就是说,我们会返回不包含查询词项的相关文档。19现代信息检索20关于召回率Recall本讲当中会放松召回率的定义,即(在前几页)给用户返回更多的相关文档这可能实际上会降低召回率,比如,将jaguar扩展为jaguar(美洲虎;一种汽车品牌)+panthera(豹属)可能会去掉一些相关的文档,但是可能增加前几页返回给用户的相关文档数2021提高召回率的方法局部(local)方法:对用户查询进行局部的即时的分析主要的局部方法:相关反馈(relevancefeedback)第一部分全局(Global)方法:进行一次性的全局分析(比如分析整个文档集)来产生同/近义词词典(thesaurus利用该词典进行查询扩展第二部分21提纲22❶上一讲回顾❷动机❸相关反馈基础❹相关反馈详细介绍❺查询扩展现代信息检索23相关反馈的基本思想用户提交一个(简短的)查询搜索引擎返回一系列文档用户将部分返回文档标记为相关的,将部分文档标记为不相关的搜索引擎根据标记结果计算得到信息需求的一个新查询表示。当然我们希望该表示好于初始的查询表示搜索引擎对新查询进行处理,返回新结果新结果可望(理想上说)有更高的召回率23相关反馈分类用户相关反馈或显式相关反馈(UserFeedbackorExplicitFeedback):用户显式参加交互过程隐式相关反馈(ImplicitFeedback):系统跟踪用户的行为来推测返回文档的相关性,从而进行反馈。伪相关反馈或盲相关反馈(PseudoFeedbackorBlindFeedback):没有用户参与,系统直接假设返回文档的前k篇是相关的,然后进行反馈。24现代信息检索25相关反馈相关反馈可以循环若干次下面将使用术语adhocretrieval来表示那种无相关反馈的常规检索将介绍三个不同的(用户)相关反馈的例子25现代信息检索26例126现代信息检索27初始查询的结果27现代信息检索28用户反馈:选择相关结果28现代信息检索29相关反馈后再次检索的结果29现代信息检索30向量空间的例子:查询“canine”(1)Source:FernandoDíaz30现代信息检索31文档和查询“canine”的相似度Source:FernandoDíaz31现代信息检索32用户反馈:选择相关文档Source:FernandoDíaz32现代信息检索33相关反馈后的检索结果Source:FernandoDíaz33例3:一个实际的例子34初始查询:[newspacesatelliteapplications]初始查询的检索结果:(r=rank)r+10.539NASAHasn’tScrappedImagingSpectrometer+20.533NASAScratchesEnvironmentGearFromSatellitePlan30.528SciencePanelBacksNASASatellitePlan,ButUrgesLaunchesofSmallerProbes40.526ANASASatelliteProjectAccomplishesIncredibleFeat:StayingWithinBudget50.525ScientistWhoExposedGlobalWarmingProposesSatellitesforClimateResearch60.524ReportProvidesSupportfortheCriticsOfUsingBigSatellitestoStudyClimate70.516ArianespaceReceivesSatelliteLaunchPactFromTelesatCanada+80.509TelecommunicationsTaleofTwoCompanies用户将一些文档标记为相关“+”.现代信息检索35基于相关反馈进行扩展后的查询查询:[newspacesatelliteapplications]352.074new15.106space30.816satellite5.660application5.991nasa5.196eos4.196launch3.972aster3.516instrument3.446arianespace3.004bundespost2.806ss2.790rocket2.053scientist2.003broadcast1.172earth0.836oil0.646measure基于扩展查询的检索结果36r*10.513NASAScratchesEnvironmentGearFromSatellitePlan*20.500NASAHasn’tScrappedImagingSpectrometer30.493WhenthePentagonLaunchesaSecretSatellite,SpaceSleu
本文标题:26lecture9-queryexpansion-信息检索导论-王斌-PPT-课件-第9章
链接地址:https://www.777doc.com/doc-5541314 .html