您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 傅强-当当在大数据挖掘分析与管理―个性化精准营销方面的探索
应用大数据能力——当当网在个性化推荐&精准营销方面的探索以“探索”为主线,让各位同学跟我一起亲身经历一次2006年至今的当当网个性化推荐&精准营销技术探索&架构革新之旅”时光穿越至2006年1000万用户100万图书双核2G-4G内存32位50-200G磁盘解决方案•多步骤处理:内存有限,不得不分批分块计算•只计算3-6个月:一方面降低计算量,另一方面数据较新,让用户最新的群体行为有机会影响推荐效果基本信息•剪枝:去除脏数据噪声、低频低销量冷门商品、高频畅销商品•稀疏矩阵的高压缩比的存储与支持高效查询仍然是问题P100C001C004C008C162C589C798C001P006P100P168P457P688C004P001P005P100P457C008P004P009P100P235P688P889稀疏矩阵的高压缩比的存储与支持高效查询解决方案•倒排索引•内存映射空间:几十G-几百M时间:处理全量数据2小时以内个性化推荐买了还买了看了还看了基于浏览历史的推荐发现跟您相似顾客个性化邮件2006研发,2007上线。获得巨大成功!但可惜当时没数字证明时光荏苒,2007、2008陆续推出基于c++的更多推荐产品时光穿越至2008、2009年MYSQLMYSQLMYSQLJobJobJob?随着时间的推移,2009、2010互联网各种新技术层出不穷:hadoop、erlang、gearman等等。这些新技术新思想不断对现有系统产生影响,并促成现有系统不断发展。精准营销生态系统进入新阶段。神器!HadoopJobsA的频率B的频率AB的频率Hadoop推荐/协同过滤Non-distributedrecommenders:Taste(UserCF,ItemCF,SlopeOne)DistributedRecommenders:ItemCF个性化推荐买了还买了看了还看了基于浏览历史的推荐发现跟您相似顾客个性化邮件网站流量分析运营报告网页分析转化分析流量分析广告分析hadoop用户行为数据库姓名:程序猿性别:男爱好:女居住地:北京回龙观行业:互联网网购时间:22点-凌晨2点用户行为数据库身材:腹围臀围胸围终端:chrome/Andriod标签云:架构、高性能计算、分布式存储、重构、大数据处理、数据挖掘SVM算法的力量最会被男性购买的图书分类最会被女性购买的图书分类当当男是搞IT的很多当当女喜欢看惊悚推理系列当当女是望子成龙的好妈妈,经常买教辅购买手链的当当男比当当女还多个性化推荐买了还买了看了还看了基于浏览历史的推荐发现跟您相似顾客个性化邮件网站流量分析运营报告网页分析转化分析流量分析广告分析hadoop以用户为中心数据集市用户profile数据库订单流量进销存?MQ:kafkaKeyValue:MongoDBredishbase实时mapreduce:Storm实时收集用户行为的数据传输实时推荐的核心存储实时统计分析•协同过滤:user-based、item-based•tag、文本•矩阵分解:SVDLDASLA•准确性•多样性•覆盖率•新颖性•单纯数据更新:让最新的群体行为告诉我们最近正在发生什么•到考虑用户行为中正反馈:群体行为用脚投票•到考虑用户行为正负两种反馈个性化推荐个性化推荐买了还买了看了还看了基于浏览历史的推荐发现跟您相似顾客个性化邮件网站流量分析运营报告网页分析转化分析流量分析广告分析大数据能力hadoopstormMongodbRedishbasekafka算法能力个性化推荐领域算法自然语言处理算法通用算法:聚类、分类、预测、回归等重要模块ABtest邮件平台短信平台Anti-Fraud用户数据集市用户行为订单流量进销存ERP时时关注互联网最新技术动态、产品动态、业界动态,甚至国际大环境、国内外时事,这些因素或早或晚最终会影响到我们身处的行业和所负责的产品。如:站流量分析系统就是典型的例子、hadoop也是革命性的技术产品之一时刻都在寻找下一块插图。打造自己的架构生态圈,其过程像拼图一样。每个组成模块,有自己的特点,专门解决合适的问题Email:fuqiang@dangdang.comfqfuqiang@sina.com新浪微博:@fq傅强
本文标题:傅强-当当在大数据挖掘分析与管理―个性化精准营销方面的探索
链接地址:https://www.777doc.com/doc-6248370 .html