您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 48th-夏粉-广告数据上的大规模机器学习
@夏粉_百度目录背景问题技术小结计算广告学计算广告学与CTR预估计算广告学的核心问题:给定的环境下,用户与广告的最佳匹配流量变现:方法:依赖机器学习和历史数据,做精准CTR预估百度推广**profitPVCTRACPCTR预估问题CTR预估系统广告库},,,{21ladadadD广告请求)(iq广告的预估CTR)()(2)(1___iniiiadPctradPctradPctr点击率预估-机器学习模型数据处理流程日志特征预处理特征数据数据预处理模型训练模型评估大规模机器学习问题大规模机器学习问题•特征之间存在高度非线性关系特征复杂度高•点击率随时间变动,e.g.,兴趣变化•新广告和流量上线,旧广告和流量下线数据时效性高•模型更新•策略调研数据训练频繁•每天百亿广告展现,十亿特征•类别不平衡、噪音大数据特征规模大大规模机器学习技术数据处理技术机器学习技术点•选择对点击概率分布预估足够多样本解决方法:不可见和不完整样本过滤样本采样异常样本检测目标•获取主要信息•去除异常噪音数据采样:Google:采样:矫正:原理:采样后的期望损失等于原损失噪音检测计算点击率随时间变化趋势–百度首创:SA算法00.10.20.30.413579111315171921232527293133353739414345474951随机噪音sa=0.0027500.0020.0040.0060.0080.010.01216111621263136414651566166717681869196101106111116121126131136141146151156161166正常样本sa=-10.977特征处理技术目标•选择尽可能少的特征表示模型和数据CTR预估机器学习技术•特征选择•特征删减特征类型:类别型特征(categoricalfeatures)、连续值特征特征表示:使用one-hot编码类别型特征特征海量!特征选择数据拟合项:拟合训练数据,使得预估CTR尽可能靠近经验CTR。Regularizationterm,特征选择,降低模型复杂度其中损失取似然损失特征删减背景:模型大小占特征大小比例极低技术挑战:训练前,判断哪些特征权值为0谷歌:新特征按概率p加入BloomFilter+次数超过n百度首创:Fea-G算法:理论保证效果无损方法内存节省AucLoss升高Bloom(n=2)66%0.008%Bloom(n=1)55%0.003%Poisson(p=0.003)60%0.020%Poisson(p=0.1)40%0.006%Fea-G97%0%深度特征学习技术特征调研背景构造高阶组合特征,描述特征之间非线性关系人工挖掘,耗时!耗力!依赖先验,无推广性!假设有N个单特征类,组合特征候选类:选最优特征类,需要时间:组合特征调研单特征•site•Ad•hour•Cookie•……组合特征•Site-Ad•Site-hour•Ad-cookie•……NNNNNNNCCCC121...2日志处理特征抽取模型训练&评估2N深度特征学习算法特征学习深度学习在语音、图像上取得突破性进展广告数据特征维数非常高(单特征百亿),尚无大规模稀疏特征学习算法DANOVA:首个直接应用于大规模稀疏特征的深度特征学习算法上线效果特征挖掘效率提升上千倍CTR,CPM显著增长逐层贪婪学习单特征:Site,Ad,Hour,Cookie,…二阶组合:Site-Ad,Site-Hour,Ad-Cookie,…高阶组合:Site-Ad-Cookie,…模型时效性背景:模型更新时,训练数据尽可能少技术挑战:稀疏性、时效性、稳定性方法:稀疏在线算法现状:大部分在线算法非稀疏Google保留前N次模型梯度方法,不够稳增量数据增量数据增量数据增量模型增量模型增量模型…………0%2%4%6%8%10%0510152025时间延迟CTR提升增量效果汇总技术创新点:训练算法:首创SOA算法,使模型稳定性更好训练架构:批处理改为在线,节省资源80%以上在线学习平台:在大数据上实现分钟级别的在线学习时效性从20-30小时降到分钟Ctr累积大幅提升在线学习时效性为分钟Ctr显著提升资源节省50%模型训练线性逻辑回归模型目标函数niwxywwcenwLTii11||||)1log(1)(minarg训练算法优化背景:寻找更好优化方向,减少迭代轮数技术方案:算法创新:Shooting算法,更准的方向性能变化:相比于LBFGS训练轮数从平均50轮下降到5轮,训练更充分23802390240024102420135791113151719212325272931333537394143454749515355x10000LBFGSshooting单元小结小结以CTR预估为例,大数据学习技术应用计算广告学,尽可能少的资源尽可能多的提升CTR准确率大数据学习技术:数据和特征过滤算法,容纳百亿数据特征深度特征学习算法,学习效率提升千倍稀疏在线算法,模型分钟更新模型训练算法,速度提升十倍与GoogleSeti对比网盟CTR预估模型:数据和特征过滤算法,容纳百亿数据特征深度特征学习算法,学习效率提升千倍稀疏在线算法,模型分钟更新模型训练算法,速度提升十倍GoogleSeti:(4/06/201008:00:00AMPostedbySimonTong,GoogleResearch)Binaryclassification(producesaprobabilityestimateoftheclasslabel)ParallelizedScalestoprocesshundredsofbillionsofinstancesandbeyondScalestobillionsoffeaturesandbeyondAutomaticallyidentifiesusefulcombinationsoffeaturesAccuracyiscompetitivewithstate-of-the-artclassifiersReactstonewdatawithinminutes关注我们:t.baidu-tech.com资料下载和详细介绍:infoq.com/cn/zones/baidu-salonInfoQ策划·组织·实施关注我们:weibo.com/infoqchina“畅想•交流•争鸣•聚会”是百度技术沙龙的宗旨。百度技术沙龙是由百度与InfoQ中文站定期组织的线下技术交流活动。目的是让中高端技术人员有一个相对自由的思想交流和交友沟通的的平台。主要分讲师分享和OpenSpace两个关键环节,每期只关注一个焦点话题。讲师分享和现场Q&A让大家了解百度和其他知名网站技术支持的先进实践经验,OpenSpace环节是百度技术沙龙主题的升华和展开,提供一个自由交流的平台。针对当期主题,参与者人人都可以发起话题,展开讨论。
本文标题:48th-夏粉-广告数据上的大规模机器学习
链接地址:https://www.777doc.com/doc-3231037 .html