您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 阿里广告中的机器学习平台
阿里广告中的机器学习平台昙宗个人简介•蒋龙•花名:昙宗•阿里巴巴高级技术专家•2006-2011,微软亚洲研究院自然语言计算组•微软对联,机器翻译,实时搜索•2011-,阿里巴巴广告部(阿里妈妈)•研发广告中的机器学习和NLP技术•Email:tanzong.jl@taobao.com•Weibo:蒋龙_淘昙宗提纲•广告中的机器学习•阿里广告机器学习平台•特征平台•算法平台–MPI并行计算集群–算法平台–评测平台•应用现状搜索广告排序分数:f(点击率,竞价)=点击率预估p(click|ad,query)定向广告排序分数:f(点击率,竞价)=点击率预估p(click|ad,user)商品推荐搭配推荐相关推荐主宝贝排序分数:f(转化率,商品价格)=转化率预估p(buy|item,user,curItem)广告中的机器学习•点击率预估•搜索广告:p(click|ad,query)•定向广告:p(click|ad,user)•转化率预估•淘客:p(buy|item,query),p(buy|item,user)•推荐:p(buy|item,user,curitem)•相同的流程–基础数据+日志数据,特征抽取和处理,训练数据收集,模型训练,模型线下评估重复的数据流数据/特征处理在线/离线预测模型训练/分析线下效果评价淘客搜索(User,Item)PCVR数据/特征处理在线/离线预测模型训练/分析线下效果评价(User,AD)CTR定向广告数据/特征处理在线/离线预测模型训练/分析线下效果评价(Query,AD)CTR搜索广告广告,商品,用户…基础数据统一机器学习平台实时预测服务搜索广告(Query,AD)CTR定向广告(User,AD)CTR淘客搜索(Query,Item)PCVR新业务数据/特征处理模型训练/分析自动效果评价快速迭代数据驱动统一机器学习平台新业务支持广告,商品,用户,行为…基础数据特征平台特征平台算法平台特征平台•特征处理•特征抽取•公用数据(Query,Ad,Item,Shop,User)•特征处理•变换,规范化,交叉组合,离散化•特征分析•覆盖率,均值,方差•相关系数,Chi-square,互信息•反馈特征数据获取流程•Qid1_Ad1,PV,Click/f1,f8,…•Qid2_Ad1,PV,Click/f1,f9,…•…•f1:PV,click•f2:PV,click•…特征平台•f1:{values}•f2:{values}•f3:{values}•…特征平台•训练/测试数据生成•目标和特征数据连接•训练数据选择•多天数据集成•大数据操作:Union,Aggregation,JoinFeatureDataAggregateTraining/TestDataJoinInstanceData•f1:{values}•f2:{values}•f3:{values}•…•Qid1_Ad1,PV,Click/f1,f8,…•Qid2_Ad1,PV,Click/f1,f9,…•…•特征平台特点•海量数据•原始日志,训练数据:几十T•计算逻辑简单,迭代少•稳定,容错•基于Hadoop开发–大规模MapReduce+HDFS集群•阿里云梯:4000+节点,~80PB存储基于Hadoop的特征平台算法平台•算法平台:模型训练和评测•海量数据,大规模特征•计算逻辑复杂,迭代过程很多•速度要求很高•基于MPI框架•数据常驻内存•单机高性能,大内存•允许自定义复杂的数据通信基于MPI的算法平台LinuxClusterServices(HPCNodes)MPIPThreadsHDFSTorque+MauiMPIDownload+WebMonitorPLRPLSAPClusteringPSVM…用户自定义算法评测平台阿里MPI集群•集群概况•~500台服务器•单机12核(超线程24核),100G内存,千/万兆网卡•生产、开发、测试集群•部署MPICH2框架•共享云梯存储–MPI-Download:统一管理与Hadoop的数据交换–分布式下载,自动解压合并,自动流量控制MPI集群任务管理•使用Torque+Maui为基础的调度器•Job模块自动分发,计算资源均衡•调度队列区分优先级•Cgroups确保资源隔离•动态资源调整并行机器学习算法•并行算法库•LR,MLR,LDA,PLSA,GBRT,SVM,MAXENT,CF,SpectralClustering,…基于MPI的并行PLSA•PLSA(ProbabilisticLatentSemanticAnalysis)模型•Z代表隐藏topics•d,w矩阵:d先产生z,再由z产生w•应用•文本语义分析,用户兴趣分析Zzdzpzwpdwp)|()|()|(基于EM算法的参数估计–E-step–M-stepZzzwpzdpzpzwpzdpzpwdzp')'|()'|()'()|()|()(),|(),|(),()|(Ddwdzpwdnzwp),|(),()|(Dd),|(),()(W1W2…WVD1n11n12…n1vD2n21n22…n2v……………Dmnm1nm2…nmnP(z1|d1,w1)=xxP(z2|d1,w1)=xx…P(zk|d1,w1)=xxP(w2|z)P(d2|z)P(z)•数据并行化•d,w矩阵按行(d)均匀划分到每个节点•计算并行化(N个节点/进程)•节点同步完成单机数据的E-M步骤,得到新一轮的p(d|z)和局部p(w|z),p(z)•节点间通信得到全局p(w|z),p(z)参数更新•单节点内存占用–|d,w|/N+|d,w|*K/N+V*K+K*D/N+K最大内存消耗:E步骤后验概率基于MPI的并行PLSAW1W2…WVD1n11n12…n1vD2n21n22…n2v……………Dmnm1nm2…nmnP(w|z)P(d|z)P(z)Node1•内存优化•E步M步交叉进行,不存储后验概率p(z|d,w)•计算完每个词的p(z|d,w),直接更新对应的p(d|z),p(w|z)参数•需要存储新旧两个模型p(d|z),p(w|z)•按行(d)扫描数据计算,省下内存p(d|z)•每行计算完直接在旧p(z|d)上更新新值•E-step计算优化优化的并行PLSAZzzwpzdpzpzwpzdpzpwdzp')'|()'|()'()|()|()(),|(Zzzwpdzpdzpzwpwdzp')'|()|'()|()|(),|(基于MPI的自动评测•基于MPI的模型评测•无需回传model到hadoop•训练完直接评测,也可单独评测•自动化的参数调整•指标种类•MAE,MSE,Accuracy,Precision,Recall,AUC,GAUC集群运行状况•使用方–阿里妈妈事业部,搜索事业部–天猫算法,交易算法团队•集群稳定性99.9%•集群资源CPU周级峰值平均利用率60%+,平均利用率30%+•周Job数1000+应用案例•基于MPI的LR/MLR模型–搜索广告ctr预估–淘客搜索CVR预估–Tmall推荐融合排序–定向广告CTR预估•基于MPI版本PLSA模型•外投广告个性化•搜索个性化Thanks!
本文标题:阿里广告中的机器学习平台
链接地址:https://www.777doc.com/doc-4235113 .html