您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 搜索引擎的时效性需求满足
殷庆轩yinqingxuan@baidu.com•PPT的内容•用户体验=产品特性=技术实践•我们的做事方法•以满足用户需求、改善用户体验为中心•结合应用,发现问题、解决问题•长线vs短线,理论vs实践,理想vs现实•工程师会code,但丌能只会code前面的话提纲•时效性问题的定义•时效性需求分析•时效性相关技术点–收录–排序–系统•相关话题时效性定义•泛时效性–手机报价,公务员招聘–今日气温,图书馆几点关门•周期时效性–四六级、父亲节、–火影忍者、宇宙大爆炸•突发时效性–荷兮vs西班牙–唐骏学历突发时效性的难点用户需求•郭德纲•郭德纲徒弟打人郭德纲打人视频郭德纲圈地郭德纲李鹤彪周广甫郭德纲徒弟打人郭德纲打人视频郭德纲圈地郭德纲李鹤彪周广甫+有药也不给你吃+郭德纲北京电视台+郭德纲睡女主持人+郭德纲封杀+郭德纲春妮+郭德纲黑社会+何云伟李菁退出+事件始末+最新进展+郭德纲支持率+央视批郭德纲三俗+郭德纲封杀+郭德纲道歉信+完整版视频+郭德纲周立波+郭德纲姜昆+南方事情正在起变化+郭德纲博客+德云社官网+人民日报郭德纲+郭德纲2012船票用户需求vs产品特性•用户需求•最快速度找到相关信息•互联网上有资源就能搜到•找到足够多的信息•多媒体信息更好•事件前因后果•周边消息,花絮•有时还想人肉一下•产品特性•及时的收录和数据更新•时效性需求识别和合理排序•结果多样性•信息整合和展现•小时级、分钟级及时性•小众需求覆盖率相关技术点•全、准、快、新全准快收录排序系统收录的问题–需要覆盖的内容•官方•新闻迈克尔去世•名人博客阿忆报料方静•草根•论坛贾君鹏•博客、微博广金跳楼•视频央视大火收录的问题–调度和筛选•实时全镜像可能吗?–实时:API?–全:需要吗?•页面时效性价值–收录、索引页面的标准和优先级–如何判断•时效性源价值–check种子的频率和优先级–如何挖掘收录的问题–变化的页面价值•页面时效性价值–特征变化=大浪淘沙–潜在价值=验证价值被访问被回复被推荐贾君鹏,你妈妈叫你回家吃饭排序的问题–时效性需求判定•需求判定•字面识别•富士康跳楼•南京爆炸•钱伟长逝世1234567“南京爆炸”的爆发统计日查询频次日新闻网页数量排序的问题–进一步的需求体验•多样性–权威消息vs民间评论毒奶粉–事件脉络vs最近进展12跳,13跳–文字报道vs图片视频图片新闻,兽兽门•浏览体验–脉络、进展(数据可视化)–周边、花絮(关联挖掘)–人肉、围观(深度挖掘)排序的问题–风险控制和反作弊•SEO的沃土–资源丌丰富–实验成本低•解决思路–加强权威性的作用–信息源可信度控制系统的问题–数据更新•数据类型–网页(含关系)数据–用户(含关系)数据–索引数据•更新类型–增–改–删流式库短周期库长周期库建库成本容量需求系统的问题–数据计算•单点计算–流式–回灌•挖掘计算–增量(删、改)–模拟(精度)–在线(成本)系统的问题–cache问题•Cache方案–全cache–无cache–TTL–选择性flush•eg.CachingSearchEngineResultsOverIncrementalIndices,Yahoo,SIGIR2010技术点总结•数据更新•单点计算•挖掘计算•缓存问题系统排序收录•信息源头和传播路径•官方媒体和民间传播•页面价值和调度筛选•需求识别•满足提升•风险控制相关话题•调研、评估–实时评估、事后评估•实时检索–实时检索和传统检索矛盾吗?–SNS资源的利用?•冲突和一致–General提速vs子系统–时效性和稳定性•其他–事件侦测、舆情监控、商业分析谢谢
本文标题:搜索引擎的时效性需求满足
链接地址:https://www.777doc.com/doc-5962482 .html