您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 电子商务 > 电商搜索和新闻推荐用户画像近实时更新_final
电商搜索和新闻推荐用户画像--近实时更新王成光2016-7-10电商搜索和新闻推荐用户画像实时更新•电商搜索–基本组成–相关实现技术•新闻推荐用户画像–用户画像组成–用户画像实时更新流程–实时计算:Storm/SparkStreaming/Light_drtc2016-7-10电商搜索和新闻推荐2电商搜索•基本组成–搜索框自动补全提示–导航筛选器–关键词检索•相关实现技术–ES和Solr近年发展情况–ESvsSolr全方位比较–ES2.X新特性2016-7-10电商搜索和新闻推荐3电商搜索组成--搜索框自动补全提示2016-7-10电商搜索和新闻推荐4亚马逊淘宝京东优购电商搜索组成--导航筛选器2016-7-10电商搜索和新闻推荐5天猫搜索筛选器电商搜索组成--导航筛选器2016-7-10电商搜索和新闻推荐6优购搜索筛选器电商搜索组成--关键词搜索2016-7-10电商搜索和新闻推荐71.同音异形搜索2.部分匹配搜索3.缺失品牌建议搜索4.同义词搜索品牌别名品类别名电商搜索技术--当前全文检索项目2016-7-10电商搜索和新闻推荐8项目介绍Lucene开发语言是Java,也是Java家族中最为出名的一个开源搜索引擎,在Java世界中已经是标准的全文检索程序,它提供了完整的查询引擎和索引引擎,无中文分词引擎,不支持实时搜索。SolrSolrCloudSolr是一个用java开发的独立的企业级搜索应用服务器,它提供了类似于Web-service的API接口,它是基于Lucene的全文检索服务器,也算是Lucene的一个变种,很多一线互联网公司都在使用Solr,也算是一种成熟的解决方案.ESElasticsearch是一个采用java语言开发的,基于Lucene构造的开源,分布式的搜索引擎.设计用于云计算中,能够达到实时搜索,稳定可靠.Elasticsearch的数据模型是JSON.SphinxSphinx是一个用C++语言写的开源搜索引擎,也是现在比较主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍(以空间换取性能),在检索速度和精准度和中文分词方面比lucene支持差。MysqlMysql全文索引,自4.0开始引入,最初只支持持MyISAM引擎,自MySQL5.6起也同时支持InnoDB引擎。对中文支持不好,性能也相对较差。电商搜索技术--ES集群2016-7-10电商搜索和新闻推荐9电商搜索技术--SolrCloud集群2016-7-10电商搜索和新闻推荐10电商搜索技术--ES和Solr综合比较2016-7-10电商搜索和新闻推荐11特性ESSolr/SolrCloud索引1.新插入10万条耗时18.8秒2.更新2万新插入8万耗时64秒3.索引文件相对较大(7612k)1.新插入10万条耗时7.2秒2.更新2万新插入8万耗时24秒3.索引文件相对较小(5280K)shard中doc数差异大比较匀称查询返回10万条数据大概15毫秒返回10万条数据大概29毫秒健壮性比较强相对弱容错性比较强相对弱中文分词支持动态添加专有词支持度不好无模式实时索引与生俱有后期增加电商搜索技术--ES和Solr近年发展2016-7-10电商搜索和新闻推荐12电商搜索技术--ES和Solr近年发展2016-7-10电商搜索和新闻推荐13电商搜索技术——ES2.x新特性2016-7-10电商搜索和新闻推荐14•ES集群节点新增部落节点•API级显示支持文档字段级更新•ES2.X已经废弃Facet•ES2.XAggregation功能增强,支持嵌套。•ES2.X开始索引类型index_analyzer更改为analyzer•ES2.2新增查询分析器:–得到查询的详细分析信息,它可以让你了解和调试查询性能。查询的每一部分都独立的记录了统计时间•ES2.2增强地理位置字段:–几乎重写,增加50%的入库效率,提高20-50%的查询效率•ES2.x中文分词集成也有所调整新闻推荐用户画像实时更新•用户画像基本组成–内容体系分类–更新周期分类•用户画像实时更新流程•流式分布式实时计算–Strom–SparkStreaming–Light_drtc(原创:)2016-7-10电商搜索和新闻推荐15用户画像基本组成—内容分类•百度数据开放平台大数据用户画像标签体系—更新周期分类•依据属性变化频繁程度:–静态标签相对短时间内变化不大的信息,主要指地域、年龄、性别、文化、职业、收入、生活习惯、消费习惯等人口属性和商业属性等–动态标签用户不断变化的行为信息,主要指产品类别、活跃频率、产品喜好、产品驱动、使用习惯、产品消费等产品行为,在互联网上,用户行为,可以看作用户动态信息的唯一数据来源等•依据更新时间长短:–长期兴趣标签:更新频率一般为数小时或天–短期兴趣标签:更新频率一般为分钟级或秒级2016-7-10电商搜索和新闻推荐17用户画像计算相关算法•内容相似–Jaccard|S∩T|/|S∪T|–余弦定理–修正余弦–皮尔逊相关系数2016-7-10电商搜索和新闻推荐18用户画像计算相关算法•关联规则–支持度(Support),表示项集{X,Y}在总项集里出现的概率。公式为:Support(X→Y)=P(X,Y)/P(I)=P(X∪Y)/P(I)=num(XUY)/num(I)–置信度(Confidence),置信度表示在先决条件X发生的情况下,由关联规则“X→Y”推出Y的概率。即在含有X的项集中,含有Y的可能性。公式为:Confidence(X→Y)=P(Y|X)=P(X,Y)/P(X)=P(XUY)/P(X)–提升度(Lift),提升度表示含有X的条件下,同时含有Y的概率,与不含X的条件下却含Y的概率之比。公式为:Lift(X→Y)=P(Y|X)/P(Y)–强关联规则:满足最小支持度和最小置信度的规则。•如果Lift(X→Y)1,则规则“X→Y”是有效的强关联规则。•如果Lift(X→Y)=1,则规则“X→Y”是无效的强关联规则。•特别地,如果Lift(X→Y)=1,则表示X与Y相互独立。2016-7-10电商搜索和新闻推荐19用户画像计算相关算法•协同过滤:基于user协同过滤和基于item协同过滤2016-7-10电商搜索和新闻推荐20用户画像计算相关算法•主题模型•逻辑回归•兴趣时间衰减–牛顿冷却定理:物体的冷却速度,与其当前温度与室温之间的温差成正比。本期得分=上一期得分xexp(-(冷却系数)x间隔的小时数)2016-7-10电商搜索和新闻推荐21新闻推荐用户画像实时更新流程2016-7-10电商搜索和新闻推荐22实时计算框架Storm2016-7-10电商搜索和新闻推荐23实时计算框架Storm2016-7-10电商搜索和新闻推荐24实时计算框架SparkStreaming2016-7-10电商搜索和新闻推荐25实时计算框架SparkStreaming2016-7-10电商搜索和新闻推荐26实时计算框架light_drtc2016-7-10电商搜索和新闻推荐27实时计算框架light_drtc2016-7-10电商搜索和新闻推荐28实时计算框架light_drtc2016-7-10电商搜索和新闻推荐29感谢您参加本届MPD!www.mpd.org.cn400-812-80202016-7-10电商搜索和新闻推荐30
本文标题:电商搜索和新闻推荐用户画像近实时更新_final
链接地址:https://www.777doc.com/doc-33020 .html