您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 中国移动大云大数据产品及应用20
中国移劢“大云“大数据产品及应用BDTC2014徐萌中国移劢苏州研发中心2移动运营商的大数据有什么?移劢互联网服务商电信运营商SNS博客电商视频图片音乐签到问答点评优惠券专业SNS微博消息论坛2G、3G、4G、WIFI新闻地图大数据成为网络优化、业务创新、精准营销和决策支持等工作的基础超过7.3亿用户超过100万基站每分钟超过800万通话每天信令数据超过1PB每秒上网流量超过40GB经分系统数据规模接近10PB3电信运营商发挥管道优势,深入挖掘大数据的价值借助云计算技术和运营商优势,将大数据信息转化为商业价值,促进业务创新1.优化网络质量:利用信令数据支撑终端、网络、业务平台关联分析,优化网络,实现网络价值最大化2.助力市场决策:充分挖掘用户的移动互联网行为特征,提升对用户消费偏好的精准把握,帮助市场营销等决策,实现精准营销。3.改善用户体验:智能语音门户通过知识库和语义搜索技术实现业务知识的机器智能回答分析需求流量分析流量的构成和大趋势分析等用户分析用户兴趣偏好、近期关注、活动范围等流量清单查询为用户提供流量的去向查询等上网日志内容字段网络质量和效率分析网络价值分析业务端到端分析客户感知及行为分析PI网元能力层KPI网络性能层KQI业务质量层QOE客户感知层用户帐号协议类型业务类型访问URL终端信息上行流量下行流量„„劣力市场决策优化网络质量改善用户体验4中国移动“大云”大数据产品整体规划平台层应用层数据挖掘及可视化数据采集、存储和处理资源层…经营分析性能分析数据变现流量经营在线服务运营管理系统和运营管理数据安全管理元数据管理数据挖掘BC-PDM搜索引擎BC-SE深度学习平台自然语言处理数据报表可视化服务机器翻译服务图数据库分布式数据库BC-RDB大数据仓库BC-HT大数据平台BC-Hadoop内存数据库图计算流计算BC-Streaming数据智能采集系统任务调度成熟产品新增产品大云大数据产品线为中国移劢大数据应用提供三大领域的基础能力:数据采集和处理、数据挖掘及可视化、运营管理三大领域。5BC-Hadoop:“大云”大数据平台各种不同版本的Hadoop软件目前已经在各个省公司广泛应用,但是由于产品化程度低,存在商业版本不开源、开源版本不统一、运维管理功能弱、多应用混合部署能力不足等问题。BC-Hadoop2.0主要特性1.开源开放:核心系统是CDH5改进版本,代码开放,Patch反馈社区2.管理增强:集成Ambari管理系统,支持BOMC、4A规范(在研),支持puppet自动部署系统3.资源共享:利用YARN提供资源分配和调度方案4.多租户:支持基于用户、队列的Hadoop多租户方案5.可靠性:所有Hadoop组件没有单点问题6.服务化:提供基于BC-EC弹性部署方案,支持弹性MapReduce计算MapReduce/Spark并行计算框架HDFS分布式文件系统HBase分布式NoSQL数据库监控和管理工具Zookeeper、AmabriBC-Hadoop应用,如Hive、BC-HugeTable、BC-PDM、BC-SE等数据查询、分析、挖掘系统6BC-HugeTable:“大云”大数据仓库系统各省帐详单云主要采用开源HBase软件;云ETL主要采用开源Hive软件。难以解决对帐详单做分析,对ETL数据做查询的要求。一般需要建设两套系统,保存两份数据。BC-HugeTable针对同一份数据提供数据查询和数据分析功能。具有独特优势。BC-HugeTable5.1主要特性1.交易和分析一体化:通过集成Hive实现分析查询,集成Impala支持即席查询,研发OLTP引擎支持快速交互查询,实现智能路由。2.高可用:支持BC-Hadoop提供的高可用能力;提高HTLoader的可用性3.高性能:针对复杂索引查询在秒级别返回结果;复杂分析在分钟内完成4.管理增强:支持资源池、运营管理平台集成;支持监控、告警、计量、统计接口;支持SNMP、OMI协议5.兼容性:支持原生MapReduce和NoSQL接口;支持多数SQL92查询;兼容Hive、Impala、HBase数据操作APIHugeTable商用MPP方案单集群规模复用Hadoop能力,支持5000节点规模300节点SQL兼容性支持主要SQL完全支持响应时间部分SQL比MPP慢,部分相当较短优化能力需要改进较好开放性开源技术,社区非常活跃私有方案Hadoop支持紧密集成将Hadoop作为外部数据源软件举例Impala、Presto、Drill/mDrill、Shark、SparkSQL等GreenPlum、Redshift、Asterdata、Vertica等适用场景大数据在线分析中小型集市分析7BC-RDB:“大云”分布式关系数据库传统OLTP数据库应用系统主要问题是采购和建设成本高、超许可使用,BC-RDB是基于X86服务器的、通过集群技术提供高可靠、高可用和高性能的分布式数据库系统,成为一种去IOE技术方案。数据存储索引存储元数据存储日志存储元数据管理器SQL解析分布式执行计划产生器分布式调度器分布式执行器分布式事务2PC管理层日志读取模块网络传输模块复制执行模块提供管理接口集群自动监控模块失败检测负载监控任务监控集群管理和图形化工具状态监控,启动,停止部署,升级管理资源管理分布式关系功能模块高可用模块WebSQLSQLConsole数据导入导出,备份恢复等工具自动测试工具应用层模块任务查询热点监测Web检测配置文件管理一致性机制管理SQL查询分析器BC-RDB2.2主要特性1.高可靠:数据在多个服务器上形成多副本,同步写完多个副本才成功。在存储引擎层保证一致性2.高可用:集群节点互为备份,主备节点热备切换3.高性能:在负载均衡环境,提供读写分离服务;可以采用高性能硬件优化4.兼容性:完善SQL92兼容开发,仅子查询不支持,Join未经优化。提供Oracle数据导入导出支持5.管理增强:提供完善的统一监控、部署Portal;提供故障告警和数据一致性分析脚本8BC-PDM:“大云”数据挖掘和ETL工具大云BC-PDM传统数据挖掘产品开源软件(Mahout等)数据处理规模1000TB以上级别,各种应用的全量数据挖掘,集群10TB级别,各种应用的抽样数据挖掘,单机1000TB以上规模,部分应用的全量数据挖掘,集群算法支持21种挖掘算法,非结构化算法、SNA算法种类同左,有更多细分算法算法种类较少,集中在推荐算法数据预处理支持45种ETL操作支持不支持数据来源各种格式文件、数据库各种格式文件、数据库各种文件使用方法和定制开发能力友好,界面拖拉拽、SQL、定制化算法插件友好,界面拖拉拽不友好,命令行程序用户群数据分析工程师、第三方工具开发者数据分析工程师程序员产品服务培训、现场、远程、升级、定制化开发培训、现场、远程、升级无服务相比开源数据挖掘软件,BC-PDM具有功能强大、简单易用、多应用支持,服务完善等优势;相比传统数据挖掘工具,BC-PDM处理能力强、性能优秀、可以完成数据全量挖掘、定制化程度高,具有明显优势。客户评价:“大云BC-PDM领先业界同类产品一年”PC节点PC节点PC节点PC节点PC节点PC节点PC节点PC节点PC节点任务任务分解…M1M2MiR1Rj子任务元数据服务器block1任务分发服务器数据分割block1block1block2block2block2block3block3block3分布式集群管理服务器M1M2MiR1R2…R2…RjHDFSHugeTableMapReduce并行数据挖掘各种海量数据处理、挖掘应用数据交换并行数据探索WebGUI/工作流引擎SQL脚本CLI命令行应用用户权限管理并行数据ETL社交网络分析广域网9行业大数据解决方案实时互动个性化推荐基于设备的实时个性化推荐基于位置的实时推荐实时的客户接触关怀客户离网风险预测个性化的实时交互人工服务客户离网原因预测客户体验差的时候主动关怀个性化的挽留营销活动沉默用户(服务)主动关怀客户掉话率分析实时WIFI转移(四网协同)用户投诉故障定位网络故障检测和恢复基于价值的实时网络拥塞管理基于价值的网络规划产品设计和开发客户对产品的购买概率分析产品引入分析产品优化市场营销客户体验网络优化“大云”大数据应用实践对内支撑精细化运营:支撑客户体验提升、精细营销、产品创新、网络优化、企业管理水平提升。对外寻求新业务增长点:支撑行业大数据解决方案、数据变现及社会化洞察等对外服务模式。数据变现社会化洞察大数据对外服务竞品分析垃圾短信拦截搜索业务优化IT系统优化ETL云化帐详单查询终端进销存系统上网行为分析运营管理分析指标库查询10云ETL解决方案:以BC-Hadoop、BC-HugeTable为基础,基于BC-PDM工具针对结构化、非结构化数据实现ETL操作,包括从各种数据源获取数据,并进行清洗、转换、去重、缺值补充等操作,进而实现上报一经各类数据分析及汇总。效果:省公司:完成一经wap日志30天存储、分析、汇总,减少原有数据库25%的长时间负载占用,性能提高3-5倍。省公司:存储60天数据,6PC受业务复杂度影响,性能提升比例不同,但绝对时间上提升明显;对于而且对于数据量大、逻辑相对简单的业务提升比例更高,日调度提升平均3倍以上,月调度提升部分可达5倍以上例图:分时段汇总的业务场景现状:以数据仓库的E-L-T模式为主,海量原始数据直接入库,对数据仓库产生极大压力,数据仓库扩容压力大,影响其他分析业务正常运行。IT系统优化网络优化市场营销用户体验数据变现11详单类数据查询分析采集预处理计算1计算2融合处理大数据库大数据库原始数据消息营业厅系统营业厅1营业厅2营业厅3营业厅4例图:帐详单查询系统效果:省级帐详单查询系统:30个节点满足6个月数据供150多T数据存储,秒级支持客服及用户的详单查询省级运营管理大数据平台:12节点存储7天详绅日志1年汇总数据,支持管信客户感知丏题及CRM防绕行审计,基于大云实现大数据平台自劢安装部署、监控及管理,同时支持ooize、pig等组件。解决方案:以BC-Hadoop、BC-HugeTable为基础,仅保存一份数据,以标准SQL支持对详单类数据的查询与分析统计,包括支持客服的详单查询、上网日志查询、网络数据查询及分析等。现状:数据库承载详单类型数据的查询及分析操作,随着用户及4G业务增多,数据库压力大响应延迟增加。IT系统优化网络优化市场营销用户体验数据变现12交易数据库应用(去IOE)效果:省级终端进销存系统:6节点支持3000人幵发服务于各终端网点、经销商、各级公司以及供应商的销售支撑业务管理平台。省级BC-RDB一体机测试:完成4节点集成测试,实现数据库基准功能,验证了BC-RDB在多种平台的可集成性。负载均衡应用服务器管理终端节点1„„节点NZK1„„ZKMDBXA监控系统集群可以部署于自带硬盘的x86服务器,不需要小型机和磁盘阵列解决方案:基于分布式数据库BC-RDB系统实现分布式事务和统计分析功能,支持标准SQL接口,提供高并发和高可靠性的数据库系统,传统数据库可平滑迁移。现状:对于海量数据的事务处理需求,现网小型机系统在扩展性方面遇到瓶颈,开源单机数据库性能支持不够,只能采用分库的方案,而在跨库查询时给应用改造带来一定复杂度。IT系统优化网络优化市场营销用户体验数据变现13用户投诉故障定位解决方案:以BC-Hadoop、BC-HugeTable为基础,支持各种网络数据存储,包括traffic/Gn/Gb/wlan等数据,支持网络投诉的迅速定位、掉话率分析等等效果:省公司LTE与2G/3G信号共存干扰现象是影响无线通信网络质量的关键因素之一,当接到用户投诉时,采用传统方案,平均需要5-7个工作日完成故障定位,现在故障定位时间缩短到分钟级别。省公司感知掉话率是传统话统掉话率4倍,感知掉话率与用户实际投诉匹配度更高例图:分时段汇总的业务场景现状:传统网络数据保存周期短,4G业务增多,网络数据巨大日增数十TB(省),无法
本文标题:中国移动大云大数据产品及应用20
链接地址:https://www.777doc.com/doc-474895 .html