您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > PPTV的大数据应用24
PPTV的大数据应用提纲•PPTV的数据•数据的价值?•大数据工程系统•大数据应用月度用户数(UV)每天覆盖人数(UV)直播在线峰值PPTV的数据-用户规模•超过10亿的客户端下载量,3.4亿全平台月度活跃用户•每个活跃用户平均每天使用2小时45分钟•所有活跃用户一天使用总时长约为10980年•重大直播事件1000万用户同时在线PPTV的数据3.4亿活跃用户用户属性,播放历史,播放列表,收藏…300万视频视频属性,评分,标签,评论,榜单…客户端日志(10+T/日)PC客户端,Flash/网页客户端,移动App,P2P引擎…服务器日志(10+T/日)Webserver,LB,CDNserver,广告投放,搜索,P2Pserver,applicationtrace…结构化,半结构化数据非结构化数据数据的价值??投入版权,带宽,推广,运营…产出流量,广告,会员,增值…执行分析挖掘数据优化算法策略数据的价值–商业运营•香港动作电影在上个月产生了多少次播放?上周呢?昨天呢?前一个小时呢?•不同渠道带来的独立用户有多少?他们的停留时间和留存率如何?•每一部视频的投入(版权、带宽)和产出(广告收入,付费点播)比如何?分地区分析?分终端分析?•过去6个月月林志玲在视频观众里受关注程度变化趋势如何?山东地区观众对广州恒大队看法是否正面?数据的价值–广告投放•容量预测:下个月有多少北京地区的独立用户有可能看成龙电影3次以上?•广告投放策略优化及效果跟踪:针对任一次视频观看,怎样投放保证最终投放次数最大化?上海地区前一个小时有多少3+用户被投放了广告X?•人群定向:•性别,年龄•用户标签:“白领”,“家庭主妇”,“爱车族”,等等数据的价值–视频推荐•精准化推送:一部新的“虐恋剧”上线了,给所有曾经对类似视频感兴趣但是2个月内没有登录的用户发送消息推送•个性化推荐:猜你喜欢数据的价值–工程优化•上个月Iphone应用2.2.2版本在武汉地区消耗了多少带宽?直播和点播带宽使用比例如何?VIP用户和普通用户相比带宽保证增加多少?•哪些影片应该被推送到三级缓存可以在有限的存储空间内保持最好的服务效果?•P2P算法调优•CDN布局调优挑战大数据安全可用响应时间灵活性计算复杂性开发成本涵盖的业务范围PPBIP–PPTV的大数据平台BBBIP–数据收集HDFSLogCollector同机房IDC1IDC2IDCXIDCYIDCZ……ServerlogsClientlogsPPBIP–计算流程BIP机房机房A机房BSQLServerSyncAppLogTransformJobHiveappsHivefacttablesHivedimtablesSSAS/SSISServerETL/CubeappsSSRSServerAppServerHDFSHDFSHDFSClientAppEventLogsServerAppLogs,MetadataMetadataPPBIP–规模•Hadoop集群•节点:60=120=200•存储空间:4PB容量•日负载•新增数据:30+TB(来自200+IDC和数千万客户端)•HadoopJob:4万•新增Hive记录:300亿•读字节数:2.5PB•数据仓库•Cubes:200+•Dimensions:100+•Measure:50+基于STORM的实时统计系统SqlWithperiod10sselectcount(1)fromcl_playStatementPlanParseanalysisTopologyCompileStormToposubmitfluentdLVSLVSwithperiod5mselectdt(5*60)asdt,int(channelid)aschannel,channelname,count(distinctuserid,ipvalue)asuvfromdol_clientgroupbychannel,channelname应用设计并行机器集群+业务计算程序(批处理,实时)全局报表APIs调用每天数据(用户端,服务器)同步元数据手工查询自助报表数据仓库系统集成应用场景–BI报表,CUBE•HadoopETL=Datawarehouse•Dailyjob应用场景–ADHOC查询,自动化报表•使用HQL直接查询Hive•每天数千次•平均每分钟扫描1亿条记录[cloud@SHBNJ-BIPHIVE-HADOOP-20-83~]$catyunjin/tempquery.hqlselectdt,CP,platform,sum(vv_play)asvv,sum(uv_play)asuv,sum(channel)aschannelfrom(select/*+mapjoin(t2)*/dt,'client'asplatform,t2.contentproviderasCP,count(distinctchannelid)aschannel,count(1)asVV_Play,count(distinctuserid)asUV_Playfromcl_playt1…[cloud@SHBNJ-BIPHIVE-HADOOP-20-83~]$hive-fyunjin/tempquery.hqlyunjin/tempquery-result.txtHivehistoryfile=/tmp/cloud/hive_job_log_cloud_201303052355_997628165.txtTotalMapReducejobs=8Executionlogat:/home/pplive/logs/hive/cloud/cloud_20130305235555_d8c04da1-1a46-4519-9ca5-e69cd47d8dd2.log2013-03-0511:55:33Startingtolaunchlocaltasktoprocessmapjoin;maximummemory=9321185282013-03-0511:55:38Processingrows:630Hashtablesize:630Memoryusage:2670904rate:0.003…应用场景–实时流量统计应用场景–个性化推荐应用场景–广告投放策略优化A客户的3+转化率B客户的过投率TargetingConditionKeyageTo/KeyNumericalValueRangeGreaterThan20/GreaterThan/NumericalValueRange/ConditionConditionKeygender/KeyEnumValueRangeEqualsTo20/EqualsTo/EnumValueRange/Condition/Targeting应用场景–PP指数谢谢!
本文标题:PPTV的大数据应用24
链接地址:https://www.777doc.com/doc-24327 .html