您好,欢迎访问三七文档
当前位置:首页 > 电子/通信 > 数据通信与网络 > 大数据之上的实时精准推荐
腾讯广点通大数据之上的实时精准推荐腾讯数据平台部精准推荐中心薛伟2013.12目录•简介•数据•算法•系统目录•简介•数据•算法•系统广点通简介(e.qq.com)•广点通是基于腾讯大社交平台的效果广告营销产品,在腾讯大社交平台的海量用户积累的基础上,运用大数据技术,进行以人为核心的数据挖掘,实现精准的广告推荐。•腾讯精准推荐平台是广点通背后的支撑系统之一–数据海量–系统实时–算法精准目录•简介•数据•算法•系统数据的基本特点•典型的大数据–大量(Volume):腾讯QQ月活跃用户超过8亿,在线人际关系链超1000亿;Qzone空间月活跃用户数超6亿–高速(Velocity):Qzone空间日均相册上传超过4亿,日写操作总数过10亿–多样(Varity):数据种类多(日志、视频、图片、LBS信息等),非标准化数据比例高–价值(Value):价值密度低,商业价值高从推荐的视角看数据推荐引擎推荐上下文物品用户自身属性:素材特征、文本Tag类别、价格、成交量定向规则、投放预算生命周期等派生属性:归属的行业分类等属性:推荐位:首页,IM,详情页…对应页面内容,页面位置排序…时间、地点、环境变量等…推荐上下文交叉效应:用户-物品,用户-推荐位,物品-推荐位,用户-物品-推荐位的相似度基础数据:年龄、地域、性别内容:UGC内容:博客、微博内容等行为:浏览/收藏/喜欢/消费/分享等场景:时间、地点关系链:好友/朊友/微博关系链用户画像基础属性年龄性别地域学历职业…兴趣爱好游戏APP电商汽车600余类目…用户TAGiPhoneNikeDNFBMW百万TAG…用户状态新婚育儿付费人群…用户数据•基于社会关系的基础属性校准;基于tag统一化和语义分类的兴趣计算;定向人群挖掘体系;…QQID用户画像实时用户实时Tag用户实时兴趣…离线用户Tag用户长期兴趣用户基础属性…移动设备用户画像离线LBS定位数据移动app行为用户长期兴趣…实时LBS实时定位数据移动app实时行为用户实时兴趣…用户数据用户画像的移动化和实时化物品(广告)数据•广告主提供的特征:–类目,文字描述,价格,定向规则等•爬取和计算的特征–广告素材图片基本特征(亮度,饱和度,色彩度,对比度,尖锐度等)–图像相似度–订单类目预测–DNN发现深度特征•广告特征的实时化亮度标准差=3亮度标准差=8亮度标准差=16对于同一人群,相似图片CTR接近上下文数据•推荐位置变量:PC页面、PC客户端、无线侧•环境变量:雾霾、下雨、紫外线•时间变量:早中晚、周末、假日•空间变量:LBS数据•其他变量:实时行为、状态…目录•简介•数据•算法•系统算法-概述•推荐本质上是一种个性化排序Ranking=scoring+sorting+filtering•特定场景如广点通,排序准确+预测值精准ADRanking=scoring+PCTR+filteringECPM=CTR*CPC•指导思想:针对丌同的推荐场景,采用丌同的数据和丌同的算法策略算法-谱系•用户实时行为–关联,重定向•老用户-老广告–经典模型效果好•老用户-新广告–借助广告相关的标签,文本,类目,以及提取的广告特征等•新用户-老广告–借助用户分群,转移学习等•新用户-新广告–寻找相关信息量规则算法(重定向,关联规则,热度,…)协同过滤算法(基于邻域,各种矩阵分解,…)图算法(最近邻,各类图挖掘,…)分类算法(LR,RDT,GBDT,NN,…)基于内容的算法混合算法大数据对算法的挑战•挑战-精准投放–1‰用户-广告的评价/行为矩阵过于稀疏,密度千分位,甚至更低–1-3用户看到广告的曝光机会仅有1-3次/天–3-9大部分广告的生命周期仅有3-9天左右–50单次推荐请求控制时间50ms以内–10,000+通常单个推荐位可投广告在10万级别以上–10bn+日均推荐请求量可达100亿次+•应对–高性能的学习算法:分布式幵行的LR,邻域CF,MF等算法–场景定制化的用户画像和广告特征提取算法示例–LogisticRegression•算法模型logitP=ln[,]1PP12logitP(,,)kfxxx01122logitP=bkkbxbxbx算法示例–LogisticRegression•特征构成•模型训练–Spark上的分布式幵行的高维LR算法–支持高维特征+大训练数据集–15分钟增量更新线上模型用户基本属性,行为属性、兴趣标签..用户推荐位位置特征信息...广告Tag、图像特征、类目、行业..是否点击1,0++=+其他上下文LBS,时间,节假日,天气...目录•简介•数据•算法•系统大数据对系统的挑战•高效率•高吞吐率•低延迟•弹性•灵活性•容错/容灾•朋务质量保证•低运维成本•……系统-腾讯分布式数据仓库(TDW)查询引擎Lhotse任务统一调度IDE集成开发计算引擎MapReduce存储引擎HDFSHADOOPTDBANK数据采集Hive&Pig基于开源hadoop,hive等进行了大量优化和改造单集群4400台,存储容量100PB下一代TDW集成YARN,支持多种幵行计算框架(MapReduce,Spark等),同时提供更高效的存储结构系统-腾讯实时计算平台(TRC)•TDBank–日接入消息1000+亿–平均采集延迟1-2秒•TDProcess–日计算量10000+亿–秒级延迟•TDE–日读写4000+亿–存储量3T–毫秒级延迟•实时推荐引擎–日请求100+亿–日推荐10000+亿–推荐延迟50ms以内–模型推送延迟分钟级广告投放系统TDBank数据采集分布式计算平台算法模型+用户画像实时查询TDProcess流式计算TDEngine分布式存储引擎实时推荐引擎实时系统助力精准推荐•原始数据实时化–用户画像数据实时接入和计算–广告信息的实时接入和计算–上下文信息的实时采集和计算•训练数据流式生成–点击/曝光数据实时接入,流式关联特征数据,生成训练数据•流式模型更新–直接用流式生成的训练数据来增量更新模型•实时推荐–实时访问实时更新的用户,广告,上下文数据–实时完成推荐的计算Q&A
本文标题:大数据之上的实时精准推荐
链接地址:https://www.777doc.com/doc-5857536 .html