您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 当移动互联网遇到大数据
当移动互联网遇到大数据 2014-10 阎志涛 TalkingData 研发副总裁 数据来源:TalkingData u 中国移动互联网现状-用数据说话 u 移动互联网大数据特点 u 移动互联网大数据价值和利用 u 移动互联网大数据技术 u 移动互联网大数据未来和挑战 数据来源:TalkingData 中国移动互联网现状 –用数据说话中国移动智能设备 • 中国移动智能设备超过8亿 • Android和iOS设备的比例约为2:1 • 苹果、三星、小米、华为占据前四 • iPhone 5S, iPhone 4S, iPhone 5,iPhone 4分列苹果设备的前四名 • 小米MI 3, MI 2S,红米和三星 Galaxy Note 2分列安卓的前四位 • iPhone 6和iPhone 6 Plus最近快速普及中,在iOS设备中总计占比已经超过2% • 安卓设备中,没有一款机型占有率超过3%,市场更为碎片化 数据来源:TalkingData 中国移动互联网现状 –用数据说话Android和iOS版本情况 • Android系统升级缓慢 • Android 4.2.2仍旧是占比最高的安卓系统 • Android 4.4.2(2013年12月发布)逐渐普及中 • iOS用户升级迅速, iOS 7.1.2(2014年7月发布)占比最高 • iOS 8.0.2(2014年9月26日发布)占比升到第二位 2014.7.7–2014.7.132014.10.6–2014.10.12数据来源:TalkingData 中国移动互联网现状 –用数据说话移动应用使用情况 • BAT以及其关联企业所开发应用占据Top 10应用中的9席 • 微信和QQ一直雄踞中国移动应用覆盖率前两名,并且远远超过第三名淘宝 • 应用覆盖前50名应用中,视频和音频等娱乐类应用占据10款,电商类应用6款,社交类应用5款,游戏类3款。越来越多的人在移动设备侧完成休闲娱乐和购物。 • 在Android系统前50名中,搜索、助手、浏览器、安全等工具软件多达13款且多为BAT3占领。 数据来源:TalkingData 中国地区,平均每部设备中安装33款非系统应用,其中3款是游戏。 中国移动互联网现状 –用数据说话AVG.APP33款5.3% 3.6% 6.4% 11.0% 18.7% 29.3% 24.0% 1.6% 0% 10% 20% 30% 40% 70+ 60-69款 50-59款 40-49款 30-39款 20-29款 10-19款 10款 APP款数 1.5% 1.3% 3.8% 14.1% 79.4% 0% 20% 40% 60% 80% 20+ 15-19款 10-14款 5-9款 5款 Game款数 AVG.Game3款数据来源:TalkingData 中国移动仍然是最大的移动运营商 中国移动互联网现状 –用数据说话数据来源:TalkingData • 人们在移动侧的联网方式 中国移动互联网现状 –用数据说话数据来源:TalkingData 移动互联网大数据特点• 移动互联网大数据的4V – Volume 随时随地都在产生数据,数据量更大 – Variety 随时随地联网的特性,使得移动互联网的数据更具有多样性。在移动侧可以有更为精准的位置数据,各种传感器数据。 – Velocity 对速度处理的要求性更高,很多的业务场景需要更实时的数据处理才能使得数据产生价值。 – Value 更多高价值的数据产生 • 万物皆可联网,数据方便人的生活 – IOT逐渐成为现实,万物都在贡献数据 – 各种智能硬件逐渐普及 数据来源:TalkingData 移动互联网大数据价值和利用• 更好的个性化服务 • 更为精准的个性化营销 • 更为便利的生活,各种O2O服务 数据来源:TalkingData 租房宝 —— 获客推广 案例分享 数据来源:TalkingData 潜在高价值客群 居住城市:北、上、广、深等一线城市 生活半径:上海内环以外,中环以内 年龄:22 ~ 30岁 生活特征:宅男腐女 至少拥有一张信用卡 招行、交通、中信卡用户更为优质 iphone用户较多 三星galaxy、note系列用户较多 租房宝潜客定义 数据来源:TalkingData 移动互联网大数据价值案例• 修正IP库对位置的映射 – IP库作为互联网的一种数据,是互联网广告做城市定向的一个基础 – 传统的IP库利用IP到运营商的分配为基础,QQ类似的应用做众包来修正 – 由于运营商倒卖ip资源,在城市维度就已经有很大误差 – 很难达到更为精准的从ip到位置的映射 – 移动侧则可以方便的通过GPS进行IP库校准 数据来源:TalkingData 移动互联网大数据价值案例• O2O电影在线购票反向导流 数据来源:TalkingData 移动互联网大数据价值案例• O2O电影在线购票反向导流 数据来源:TalkingData 移动互联网大数据价值案例• O2O电影在线购票反向导流 数据来源:TalkingData 移动互联网大数据技术• 移动互联网大数据处理的一般流程 数据获取 数据收集 数据存储 数据计算数据服务 数据来源:TalkingData 数据获取 移动互联网大数据技术• 移动互联网大数据处理系统架构 监控和管理数据收集和ETL 分布式文件系统 元数据 离线计算 流式计算 批量计算 机器学习 接口层 数据应用 资源和任务调度 NoSQL RDBMS 数据来源:TalkingData 移动互联网大数据技术• 移动互联网数据获取技术 – 移动App直接获取 – 通过SDK获取 – 通过Spider爬取 • 移动互联网数据收集 – 一般数据都以日志形式在服务端进行收集 – LVS和nginx做为前置 – Kafka, Fluentd, Flume, Scribe作为日志收集的技术框架 • ETL(Extract-Transform –Load )技术 – Kettle – 基于Actor模型的并行处理 – 利用Pig, Hive,甚至MR做ETL 数据来源:TalkingData 移动互联网大数据技术• 分布式文件系统 – 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。 数据来源:TalkingData 移动互联网大数据技术• NoSQL(如下描述来自于维基百科) – NoSQL有时也称作Not Only SQL的缩写,是对不同于传统的关联式数据库的数据库管理系统的统称。 – 两者存在许多显著的不同点,其中最重要的是NoSQL不使用SQL作为查询语言。其数据存储可以不需要固定的表格模式,也经常会避免使用SQL的JOIN操作,一般有水平可扩展性的特征。NoSQL的实现具有二个特征:使用硬盘,或者把随机存储器作存储载体。 数据来源:TalkingData 移动互联网大数据技术• 常用NoSQL产品 – Hbase • 开源的Google BigTable的实现 • 底层是用HDFS存储 • 与Hadoop完美的结合 • 多客户端的访问 – Cassandra • Facebook开发的一套NoSQL产品 • 集Google BigTable和Amazon Dynamo的完全分布式架构于一身 • 不依赖于底层的分布式存储 • 相对于Hbase更好的读写性能 – MongoDB • 10Gen公司开发的NoSQL数据库 • 文档型数据库,采用BSON格式存储 • 可以非常灵活的进行字段的增加 – Redis • 内存式KV数据库 • 适合做集中式缓存 数据来源:TalkingData 移动互联网大数据技术• 离线计算 – Hadoop MapReduce 对Google MapReduce的开源实现,大数据领域分布式计算的基础性的实现。 – Hive 在Hadoop上的数据仓库,支持SQL语言,SQL语言最终会翻译成Map Reduce – Pig 利用Pig Latin进行Map Reduce开发 – Spark 最近非常火热的基于内存的的分布式计算框架,采用Scala语言开发,相对于Hadoop MapReduce,有巨大的性能提高 – Presto Facebook开发的分布式查询和分析引擎 – Impala Cloudera开发的分布式查询和分析引擎 数据来源:TalkingData 移动互联网大数据技术• 流式计算 – Storm Twitter开发的一套开源的分布式流式计算框架 – Spark Streaming 基于Spark的一套流式计算框架,事实上是小batch模式的计算 数据来源:TalkingData 移动互联网大数据技术• 批量计算 – Spark Streaming 如上一张slides所讲 – Torch TalkingData开发的一套分布式批量计算框架,支持Count, Sum, Join等计算。 数据来源:TalkingData 移动互联网大数据技术• 机器学习 – Mahout 在Hadoop上实现的一套开源的机器学习库,包含了主流的机器学习算法的实现 包含CF, Classification, Clustering, Topic Model等等主要的机器学习算法 最新版本已经抛弃了MR,逐渐拥抱Spark – Weka 一个开源的机器学习库,适合学习用,不适合大数据环境 – Spark Mllib 在Spark上的一套开源的机器学习库 包含Kmeans, Linear SVM, LR等一些常用的机器学习算法的实现 – H2O 基于Spark的深度学习库 – Parameter Server CMU, Baidu, Google,Intel 等等提供支持的一套分布式机器学习系统以及算法实现 数据来源:TalkingData 移动互联网大数据技术• 分布式任务调度 – Oozie Oozie是Apache社区一套开源的进行分布式任务调度的系统。支持将不同的MapReduce任务组合成一个工 作流。 – Azkaban Azkaban是LinkedIn开源出来的一套分布式任务调度系统,相比Oozie更为简洁。 数据来源:TalkingD
本文标题:当移动互联网遇到大数据
链接地址:https://www.777doc.com/doc-4344396 .html