您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 其它相关文档 > 面向搜索引擎的互联网用户行为分析
面向搜索引擎的互联网用户面向搜索引擎的互联网用户行为分析行为分析智能技术与系统国家重点实验室智能技术与系统国家重点实验室信息检索课题组信息检索课题组20092009年年1111月月1515日日FromFromAlexa.comAlexa.com搜索引擎面临的技术挑战搜索引擎面临的技术挑战•用户&搜索引擎&万维网Result1Result2Result3Result10…QueryClickGoogle:I’mfeelinglucky搜索引擎面临的技术挑战搜索引擎面临的技术挑战•用户层面–丰富的信息需求只能通过简短的查询来表示•查询的平均长度为2-3个词•构建复杂查询的尝试(W3QL,WebSQL等)以失败告终•万维网层面–数据繁杂,质量参差不齐•2002年,Web上所存储的数据超过500,000TB•2008年,Google索引量声称超过1trillion网页•冗余、过期、低质量乃至垃圾数据层出不穷如何解决?如何解决?•借助用户的力量–用户查询:如何查询高考分?–传统思路:查询分析与分类,关键词提取…–依靠用户的思路:百度知道如何解决?如何解决?•借助用户的力量如何解决?如何解决?•借助用户的力量–搜索质量与经济利益密切相关–群众的话不能不信,也不能全信–需要借助标注人员的过滤,反馈速度慢如何更好的借助用户的力量?如何更好的借助用户的力量?•解决思路:用户群体的行为分析–隐式反馈与显式反馈(implicit/explicitfeedback)•显式反馈–用户主动反馈–直接,对用户行为产生影响,少量•隐式反馈–用户被动反馈–间接,不对用户行为产生影响,大量如何更好的借助用户的力量?如何更好的借助用户的力量?•用户的点击都是有目的的•从统计角度分析,用户点击背后所隐藏的是用户的语义信息如何更好的借助用户的力量?如何更好的借助用户的力量?•用户行为的载体:日志数据–查询与点击日志•用户提交的查询•用户点击了哪些结果•其他辅助信息–结果对应的排序–时间戳–用户点击的序列关系–用户SessionID(记录在Cookie里)如何更好的借助用户的力量?如何更好的借助用户的力量?•用户行为的载体:日志数据–互联网访问日志•用户当前正在访问的网页•用户从此网页出发下一步访问的网页•辅助信息–时间戳–用户SessionID(记录在Cookie里)–用户停留时间面向搜索引擎的用户行为分析方法面向搜索引擎的用户行为分析方法•用户层面–利用用户的查询行为信息识别信息需求类别–利用用户的查询行为信息进行查询推荐•万维网层面–利用用户访问信息评估数据质量–利用用户行为模式识别垃圾网页•搜索引擎层面–利用用户查询行为进行搜索引擎查询性能评估–利用用户访问信息构建网络信息检索语料面向搜索引擎的用户行为分析方法面向搜索引擎的用户行为分析方法•用户层面–利用用户的查询行为信息识别信息需求类别–利用用户的查询行为信息进行查询推荐•万维网层面–利用用户访问信息评估数据质量–利用用户行为模式识别垃圾网页•搜索引擎层面–利用用户查询行为进行搜索引擎查询性能评估–利用用户访问信息构建网络信息检索语料基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别•用户信息需求分类–目的:依照信息需求对查询进行不同处理–用户查询分类体系(Broder&Roseetal.)•面向导航类需求的用户查询–用户检索时具有确定的检索目标页面–查找某个已知存在的页面/资源•面向信息事务类需求的用户查询–用户检索时没有确定的检索目标页面–查找与某个主题相关的页面/资源基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别•针对查询历史行为信息的特征提取–假设1(懒鬼假设):用户的检索需求是导航类型时,一般他只会点击很少数的几个答案•进行导航类检索时,用户意识中有一个比较明确的查找目标•他只会在结果页面中重点浏览与这个查找目标非常相关的URL或摘要内容,而不会点击其他的结果。–特征:点击n次就满足的比例(nclickssatisfied)基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别•nCS的分布情况基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别•针对查询历史行为信息的特征提取–假设2(封面假设):用户的检索需求是导航类型时,一般他只会点击排名最靠前的几个答案•检索系统导航类检索的性能一般都较高(MRR在80%以上)•他很少有必要点击前几位之后的答案。–特征:点击前n位就满足的比例(topnresultssatisfied)基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别•nRS的分布情况基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别•基于决策树学习的分类算法基于用户行为分析的信息需求识别基于用户行为分析的信息需求识别•识别结果–Sogou2006年2月全月查询和点击日志数据–共86,538,613条点击,涉及26,255,952个用户session–训练集:198个查询;测试集:233个查询0.810.850.730.860.910.71F-measure81.54%86.18%72.84%85.25%90.71%66.67%召回率81.49%85.62%73.74%87.65%91.07%76.00%精确率综合导航类信息事务类综合导航类信息事务类测试集合训练集合基于用户行为分析的查询推荐基于用户行为分析的查询推荐•用户查询v.s.信息需求–长度短:英文搜索平均长度不超过3个单词–内容意义混淆不明:打字、俱乐部–信息需求不明确:魔兽争霸(下载?资讯?主页?)•查询推荐–协助用户重新组织查询,明确信息需求。–当前主要思路:从已有用户查询中查找与当前查询相似(内容、点击)的查询基于用户行为分析的查询推荐基于用户行为分析的查询推荐•问题–缺乏对用户信息需求的明确理解–死结?搜索引擎查找与Q相似的查询推荐给用户推荐的结果与用户的需求有可能大相径庭查询Q无法准确表述信息需求2010公务员考试卡巴斯基201052010公务员报名实况足球201042010年考研报名2010国家公务员报名实况201032010发型2010年国家公务员报名qq201022010年国家公务员2010国家公务员职位表pes20101SogouGoogleBaidu#查询词:WWW2010基于用户行为分析的查询推荐基于用户行为分析的查询推荐•解决思路–用户信息需求如何表达?–用户进行点击时,并未阅读过页面的真实内容–用户点击=对结果页面摘要内容的兴趣基于用户行为分析的查询推荐基于用户行为分析的查询推荐•实验结果–基于百度、搜狗搜索引擎的查询推荐点击日志(2009.09)–针对用户点击到的结果摘要进行关键词提取,生成的查询推荐内容能够吸引更多的用户点击–评价指标:点击比率、平均点击次数00先知出什么装备00永恒先知之戒41先知下载251电影先知21灾难先知30先知的圣物00先知装备00先知出什么90dota先知00死亡先知实际用户点击是否被算法推荐搜狗搜索引擎推荐结果结果样例:先知其他推荐结果:尼古拉斯凯奇高清纪伯伦(西方著名预言家)用户的查询行为信息分析用户的查询行为信息分析•YiqunLiu,MinZhang,LiyunRuandShaopingMa,AutomaticQueryTypeIdentificationBasedonClickThroughInformation,AsiaInformationRetrievalSymposium,AIRS2006,•BoZhou,MinZhang,ShaopingMa,YiqunLiu,LiyunRu,Log-MiningBasedQuerySpellingCorrectionforChineseSearchEngines,JournalofComputationalInformationSystems,Volume5,Number3,pp1225-1234,2009.•BoZhou,MinZhang,ShaopingMa,YiqunLiu,LiyunRu,QuerySpellingCorrectionForMulti-LanguageSearchEngines,JournalofComputationalInformationSystems,Volume5,Number3,pp1521-1528,2009.面向搜索引擎的用户行为分析方法面向搜索引擎的用户行为分析方法•用户层面–利用用户的查询行为信息识别信息需求类别–利用用户的查询行为信息进行查询推荐•万维网层面–利用用户访问信息评估数据质量–利用用户行为模式识别垃圾网页•搜索引擎层面–利用用户查询行为进行搜索引擎查询性能评估–利用用户访问信息构建网络信息检索语料基于用户行为分析的数据质量评估基于用户行为分析的数据质量评估•现状:链接结构分析算法为主–超链接在被链接的两个网页之间建立如下关系:•内容推荐关系:页面A的作者推荐页面B的内容,且利用L的链接文本内容对B进行描述。•主题相关关系:被超链接连接的两个页面A与B比随机抽取的两个页面有更大的概率有内容相关性。ABAB基于用户行为分析的数据质量评估基于用户行为分析的数据质量评估•以链接结构分析为基础的质量评估–链接结构数据本身质量存在问题©2009Microsoft|ICP证合字B2-20050001号|隐私声明|使用条款|基于用户行为分析的数据质量评估基于用户行为分析的数据质量评估4210www.xinhuanet.com39www.sina.com.cn88blog.sohu.com1797www.miibeian.gov.cn16www.baidu.com1,0625www.tencent.com1394labs.adobe.com23www.qq.com1,6552www.hd315.gov.cn1391www.adobe.comRankedbyAlexa.comtrafficrankinChinaRankedbyPageRankonSogouTWebSite北京市工商行政管理局信息产业部ICP/IP地址信息备案管理基于用户行为分析的数据质量评估基于用户行为分析的数据质量评估•解决思路–依靠用户行为对链接结构数据进行清理•用户点击:个人兴趣、信息需求•被用户点击的网页/链接比未被点击的部分更可靠–构建方式•UserBrowsingGraph:只保留用户访问过的网页和用户访问过的链接•User-orientedHyperlinkGraph:只保留用户访问过的网页,以及这些网页之间原始的链接关系基于用户行为分析的数据质量评估基于用户行为分析的数据质量评估•PageRank性能测试–ROC/AUC测试、网站对质量测试0.50.550.60.650.70.750.80.850.90.951HighQualityPageIdentificationSpamPageIdentificationPairwiseOrderednessAccuracyBG(V,E)user-HG(V,E)whole-HG(V,E)基于用户行为分析的数据质量评估基于用户行为分析的数据质量评估•YiqunLiu,YijiangJin,MinZhang,ShaopingMaandLiyunRu.UserBrowsingGraph:Structure,EvolutionandApplication.LatebreakingresultsessioninWSDM’09.•薛宇飞,刘奕群,张敏,马少平,茹立云.基于用户浏览图的网页质量评估方法的比较分析。全国第十届计算语言学学术会议(CNCCL-2009).•YiqunLiu,YufeiXue,RongweiCen,MinZhang,ShaopingMaandLiyunRu,WebPageQualityEstimationwithUserBehaviorAnalysis.SubmittedtoACMTran.Web.基于用户行为分析的垃圾页面识别基于用户行为分析的垃圾页面识别•垃圾页面:通过不
本文标题:面向搜索引擎的互联网用户行为分析
链接地址:https://www.777doc.com/doc-43627 .html