您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据与互联网生态-陈磊(腾讯)
大数据与互联网生态——陈磊社交渠道社交广告应用中心开发者用户当应用遇到平台•应用面对亿级用户的大社交平台:–怎样才能得到更多用户的安装?–怎样更好的利用社交渠道、社交广告来推广应用?–怎样找到高消费用户?怎样激发和培养用户的消费习惯?–怎样让用户对应用保持兴趣,持续使用?当平台遇到应用•平台面对20万款应用:–怎样甄别优质应用?–怎样让每一位用户接触到对他有价值的应用?–怎样提升社交渠道和社交广告的效率?–怎样让用户持续使用应用?应用中心的智能算法•应用中心根据用户的不同喜好,推荐不同的应用,点击率提升3倍•在推荐的时候考虑到用户的年龄、性别、地域等属性,但更重要的是用户自己的行为以及用户的好友的行为。使用习惯用户属性人物画像带来的效果•热门推荐点击率提升25%•新品推荐点击率提升10%。协同过滤--ItemCF•【安装绝对值up】安装量提升25%•【转化率up】点击率提升15.6%,安装转化率提升30%。•【健康度up】次日留存率和周留存率都有显著提升。社交渠道调优•社交渠道指邀请、挑战、炫耀、分享等用户行为。-当一个应用推动某个用户去邀请时,应该优先邀请他的哪些好友?-当一个用户收到很多邀请的时候,应该优先展示哪个好友或者哪个应用的邀请?邀请哪些好友•用户最近主动邀请过的人,更有可能再次接受邀请44使用最近主动邀请过的好友推荐81单纯决策树推荐。应用邀请优化现网展示神秘版展示神秘版测试神秘版更能吸引点击增加推荐理由转换率提升80%,用户对有推荐理由的feed更感兴趣用现网CTR校准,UserCF社交广告我的宝贝儿子跟你真像恭喜啊!太帅了!……不单单是社交广告应用页我出生啦!大数据带来的挑战海量精准实时海量的挑战每天新增100TB的统计数据每天有2亿多用户使用20万应用可以用来分析用户使用应用的倾向的维度有100多万个做这些分析每天要跑上万个Map/ReduceJob机器学习:每天处理上百亿用户行为反馈实时数据收集每个应用服务器上的数据采集代理都路由代理服务器,将实时数据分类并送往分析系统。备份数据将存入数据集群进行T+1分析.云数据分析调度-LhotseTDWMySQLHadoopLinuxPostgreSQLRESTful各周期任务42,000多个;每天调度实例约50,000个已实现Runner40余种;支持C++/Java/Phython等多种语言优化Hive及Hadoop设计腾讯数据仓库•NameNode分布•异步调度•Jobtracker分布•优化过的QueryPlanner•列数据存储腾讯数据魔方–PB级的数据仓库多维实时计算多维度组合查询多指标对比分析Rollup、Drilldown等操作准实时数据更新Join能力自定义指标、维度大规模机器学习:亿级变量,每天百亿量级的学习•在内存中进行流式Map/Reduce计算•CumulativeLearning•降维–矩阵分解(MatrixFactorization)–用户聚类(UserClustering)•加速收敛•我们每一天都在找更好的办法精准的挑战•错误数据•大海捞针•快速迭代数据-关系链妙用示例•Nick注册年龄4岁?•好友年龄分布•加入的班级群年龄分布•微博上follow的名人粉丝群年龄分布•不同社交平台的注册年龄校验•…交叉校验分布迭代年龄段[0,4]&[60,+]修正之前比例5.92%修正之后比例1.30%修正78%4岁?80后吧!40岁原来是个大叔…关系链,还是很靠谱的!数据-关系链妙用示例学历预测好友关系链相似年龄好友(+4岁)过滤措施基于班级QQ群、校友好友学历学历-好友数加入的群职业交流校友专业QQ职业注册…属性覆盖率学历70+%职业42+%职业预测算法-精准上下文环境过滤系统-实时社交广告投放系统hina系统分布式计算平台算法模型+用户画像实时查询流式计算分布式cache实时推荐引擎特点:离线批量计算;数据延迟1小时流量:8亿资源:实时查询50C1,分布式计算平台80TS5第一阶段第二阶段特点:离线批量计算;数据延迟15分钟效果:ctr提升22%,ecpm提升30%流量:15亿资源:实时查询50C1,分布式计算平台150TS5第三阶段特点:在线实时计算;数据延迟秒级效果:ctr提升12%,ecpm提升11.6%流量:33亿资源:推荐引擎500C1,分布式计算平台300TS5未来特点:保持在线实时计算的思路;变化:支持150亿以上流量;支持高维精准算法资源预估:推荐引擎1500C1,分布式计算平台300TS5系统-全流程实时1小时15分钟实时计算大盘CTR实时计算提升量15分钟提升量1小时效果22%12%数据采集流式处理实时计算效果评估系统:快与稳,细分与泛化-协调之美用户行为数据收集实时数据采集离线数据采集用户精准推荐实时推荐引擎离线算法库通讯(IM、Mail、微信等)SNS社区/微博拍拍、生活电商视频、音乐游戏娱乐综合门户LBS数据搜索生活化推荐广告推荐视频推荐QQ秀推荐Q+推荐…………流量采集处理建模投放应用用户实时行为Item实时效果用户属性特征兴趣APP应用推荐用户-Item交叉效果实时算法训练效果实时反馈离线算法训练数据+系统+算法+评估海量+实时+精准Hina数据采集流式计算类Spark平台实时推荐引擎
本文标题:大数据与互联网生态-陈磊(腾讯)
链接地址:https://www.777doc.com/doc-6317486 .html