您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 深度学习在微博信息流排序的应用(PDF32页)
深度学习在微博Feed流应用实践刘博新浪微博机器学习研发部关系流算法负责人个人介绍Ø教育经历•北京理工大学计算机学院硕士Ø工作经历•新浪微博搜索部、大数据部、机器学习研发部目前担任机器学习研发部关系流算法负责人Ø关注领域•自然语言处理•推荐系统•Anti-spam123深度学习应用实践常规CTR方法排序微博Feed流排序场景介绍目录微博Feed流产品介绍—排序场景Ø信息获取方式•主动获取(关注)Ø内容形式•博文/文章/图片/视频/问答/话题/…•被动获取(推荐)Ø微博—社交媒体领跑者•DAU:1.6亿,MAU:3.6亿•微博关注Feed流:微博Feed流特点介绍—排序原因Ø产品特点•传播性强Ø存在问题•信息过载•互动性好•信噪比低Ø排序目标•提高用户的信息消费效率•提升用户黏性微博Feed流排序RoadMap1234TimelineEdgeRankLearningtoRankDeeplearning技术挑战Ø规模大•用户和Feed内容数量大Ø指标量化•用户体验好坏评估•内容更新快,实时性要求高•内容形式多样、非结构化•海量计算、超大规模模型优化123深度学习应用实践常规CTR方法排序微博Feed流排序场景介绍目录CTR数据特征目标模型效果ØCTR模型ØCTR预估一般流程模型选择Ø模型优化目标•互动(转发/评论/赞)、点击(图片/视频)、真实阅读Ø模型选择•线性模型LR+特征工程•多目标预估•基于pointwise方式的Learningtorank•多CTR模型bagging特征体系内容特征内容标签:领域分类、关键词、topic用户特征内容质量:营销、色情、标题党自然属性:性别、年龄、教育程度账号特征:关注数、粉丝数、V类型历史偏好:历史互动率、短/长期兴趣类型属性:带图、视频、原创/转发文章等关系特征…关系特征关系属性:同事、同学、朋友亲密度:历史交互数、相似度关注关系:互粉、特别关注……关系特征自解释特征用户间历史互动率用户对某主题微博阅读率微博的实时点击率…特征工程Ø特征选择非常重要•手动组合•统计分析•GBDT+互信息•有效选择非线性特征•单维特征表达•专家知识•组合特征泛化能力弱样本采集Ø存在问题•头部效应•实时反馈类收集与在线存在差异性Ø解决方案•正负样本比例严重失衡•对头部曝光进行降采样,长尾曝光上采样•负样本进行下采样•后端样本预采样模型评估Ø离线评估•AUC/wAUCØ在线评估•离线评估与线上效果正相关?•A/Btest测试•分目标人群测试:地域、活跃度…AB小流量-实验组小流量-对照组数据对比分析算法架构互动行为点击行为阅读行为能力标签兴趣标签亲密度自然属性账号属性用户特征关键词类型属性topic内容标签内容质量内容特征组合特征标签匹配度用户互动率协同特征实时互动率app互动率微博内容关注数据用户信息视觉标签打码日志社交关系用户特征发博流互动流曝光流模型服务模型训练模型优化模型评估模型预测CTR预估排序策略权值映射业务排序其他策略特征工程特征存储特征查询实时数据自解释特征123深度学习应用实践常规CTR方法排序微博Feed流排序场景介绍目录为什么选择深度学习Ø线性CTR模型•优势:简单高效、可解释性强、易扩展、易并行•局限性:特征工程繁琐、无法表达高维抽象特征Ø深度学习模型(DNNbasedmodel)•优势:更精准刻画User与Feed泛化能力强UserfeaturesRelationfeaturesContextualfeaturesContinuousfeaturesCategoricalfeaturesnormalizeone-hotencodeembeddingone-hotencodeContentfeaturesReLU(256)ReLU(128)ReLU(64)CrossproducttransformationLogisticloss深度学习实践(一)——wide&deepØWide&deep网络架构•Deeppartforgeneralization•WidepartformemorizationØ新增特征Ø特征工程依然很重要•Contentfeatures:用户最近的平均阅读时长、用户最近的互动微博•Wide输入•原特征:低维categorical特征、continous特征离散化•手动交叉特征•Deep输入•原特征、continuous特征离散化•categorical特征embedding深度学习实践(一)——wide&deepØ样本采样Ø网络复杂度与模型效果深度学习实践(一)——wide&deep•Negativesampling:依据微博的平均阅读时间进行划分,将用户曝光但未阅读的微博作为负样本•网络复杂度过高易导致过拟合•网络深度达到一定数值AUC反而小幅降低Ø效果深度学习实践(一)——wide&deep•线上效果•离线评估:•AUC:0.845,提升2.5%•wAUC:0.761,提升5.8%•CTR效果提升明显•刷新有小幅提升•互动CTR和点击CTR呈互斥性深度学习实践(二)——DeepFMUserfeaturesRelationfeaturesContextualfeaturesContinuousfeaturesCategoricalfeaturesnormalizeone-hotencodeembeddingContentfeaturesReLU(256)ReLU(128)ReLU(64)FMlayerØ效果•兼顾DL和FM的优势ØdeepFM模型架构•DeeppartforfeaturelearningDeepOutputFMOutput•FMpartforrecommendation•优于Wide&deepmodelLogisticlossone-hotencode•End2End框架深度学习实践(二)——DeepFMØ模型选择DeepFM模型是一个端到端的模型,不需要任何的人工特征工程,而Wide&Deep需要特征embedding避免特征爆炸的问题相比FNN,不需要预训练FM模型,能够捕获低阶特征,且FM部分与dnn部分共享embeddingDeepFM模型同时对低阶特征组合和高阶特征组合建模,从而能够学习到各阶特征之间的组合关系相比PNN,模型计算量更低,且能捕获低阶特征Ø数据Ø结论深度学习实践(二)——DeepFM总结展望Ø多模态
本文标题:深度学习在微博信息流排序的应用(PDF32页)
链接地址:https://www.777doc.com/doc-29869 .html