您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 中国电信大规模数据处理需求及实践
中国电信大规模数据处理需求及应用实践中国电信广州研究院2010-62广州研究院目录电信面临的海量数据处理问题云计算大规模分布式处理平台云计算分布式技术应用实践3广州研究院背景—全面数据时代海量电信运营数据海量互联网数据计费数据网页用户账户数据网络流量数据安全数据音频图片每用户每年产生150kB计费信息,1000万用户每年10TB,实际上往往50TB以上,在100TB左右视频一个地市运营商,每天产生24亿条话单记录,约1TB,一年约350TB用户数据ChinaNet骨干网,每天产生10TBnetflow流量截至2009年互联网有336亿个网页,每个网页28.6KB,约1PB海量数据时代,我们疲于收集的是蕴含信息的“财富”还是占据存储空间和处理能力的“垃圾”?4广州研究院背景—电信系统vs互联网系统计费系统客户关系管理系统经分系统搜索引擎社交网络门户网站电信系统•典型架构:小型机集群,封闭架构,规模上百台•数据类型:结构化数据,关系模型•处理方法:传统数据分析方法•容量:容量可规划,逐年扩容•面临问题:小型机成本高,扩容压力大,09年集团的IT投资超过30亿;传统方法无法有效应对海量数据,经分系统未能发挥实质性作用;急需解决大型系统的扩展问题和海量处理问题。互联网应用系统•典型架构:X86服务器集群,开放架构,规模上万台•数据类型:非结构化数据,自由数据库•处理方法:机器学习、数据挖掘•容量:容量可预见性低,动态扩容•优势:X86服务器开放、价格低廉;弹性架构、可动态扩展;能有效应对海量数据处理需求,是未来的发展趋势。5广州研究院互联网公司应对措施推出基于mapreduce的云计算技术架构,30万台服务器,为搜索等互联网应用提供海量存储和处理能力领导Hadoop开源云计算架构,部署生产集群/科研集群,提供个性化、反垃圾邮件等服务每天80-90TB,部署Hadoop集群,2250台机器,贡献HIVE等数据分析工具每天500TB,部署Hadop集群,1100台机器,海量数据存储和分布式计算基于mapreduce开发分布式处理平台,启动阿拉丁计划,搜索“暗网”信息背景—业界主要应对措施中国移动大云(BigCloud)基于X86架构的大规模服务器集群+MapReduce云计算分布式技术逐渐成为业界趋势基于并行计算的数据挖掘、机器学习方法逐渐成为主流的数据分析方法开源Hadoop云计算架构被广泛用于构建企业大规模服务器机群,提供大规模存储和计算能力云计算分布式技术与数据仓库技术相结合,主要用于数据分析工作,不适合于实时事务操作构建中国电信大规模分布式处理平台,为电信应用和互联网应用提供海量数据存储和并行计算能力6广州研究院目录电信面临的海量数据处理问题云计算大规模分布式处理平台云计算分布式技术应用实践7广州研究院分布式服务引擎(DSE)DSE定义:中国电信PaaS云计算平台,利用云计算分布式技术解决海量数据分析处理问题,并将一系列基于数据分析和信息处理的基础服务抽象成公共模块提供给用户,简化用户应用的开发周期。能力定位:面向亿兆级数据规模的系统功能定位:电信应用的核,互联网应用的组件设计定位:抽象公共基础服务,简化应用开发SOAPRESTHTTPCLI海量存储及分布式计算服务基础能力(数据分析、信息处理)服务能力(搜索、位置、分类)基础平台服务DSE运营管理系统互联网应用开发者电信应用开发者OSS/BSS互联网应用移动互联网应用物联网应用科学计算8广州研究院DSE-技术架构分布式数据库分布式文件系统任务分解及调度缓存服务硬件平台分布式平台基础能力层(数据分析、信息处理)内容分类及过滤搜索服务位置服务服务能力层(信息服务)ONS系统EPC查询流量分析可视检索餐饮搜索行为分析应用层热点播报行业资讯配置调度监控接入…………邮件服务单点登录账号服务平台服务运营管理关系型/分布式数据库查询引擎统计分析聚类关联分析……图表服务分类预测数据获取特征提取快速索引文本处理可视处理内容分发9广州研究院DSE-能力定义分布式运行环境•基于Hadoop集群的海量数据存储和大规模分布式计算能力•基于Web集群的大规模网络运行环境基础数据分析能力•基于Mapreduce分布式计算模型的数据挖掘、统计分析方法•分布式数据仓库查询、分析引擎基础信息处理能力•覆盖数据获取、数据整理、信息处理等环节•提供定向抓取、实体抽取、快速索引、文本处理、可视处理等信息处理服务信息服务能力•对数据处理流程作进一步封装,提供直接可用的信息服务•搜索引擎、内容分类及过滤、内容分发、位置信息等,通过标准接口开放平台服务能力•帐号服务、邮件服务、单点登陆、计费服务、图表服务等公共模块10广州研究院DSE应用—科学计算科学计算任务特点:个案性质,对计算、存储、网络等基础资源具有临时、大量、突发需求使用平台的基础能力:通过DSE开放的存储接口和计算接口,将科研计算任务部署运行到DSE平台上,分享平台的大规模处理能力,按需获取所需的计算资源。DSE存储接口图表服务MapReduce计算接口自服务站点编写MapReduce计算任务上传数据定制资源,启动任务层现结果,释放资源11广州研究院DSE应用-互联网信息应用互联网信息类应用:产生或使用大量信息,如垂直搜索、新闻资讯、社交网络、音/视频应用特点:海量数据处理需求、大规模用户请求基于DSE的功能模块组建互联网应用,调用DSE信息服务简化应用开发基础数据分析模块、基础信息处理模块把应用运行在DSE平台DSE提供Web服务集群,满足大规模用户请求信息检索信息层现数据抓取信息处理数据分析数据整理互联网信息应用互联网数据电信运营数据IP地址库用户数据流量数据网页数据评论数据图像数据音视频数据12广州研究院DSE应用-移动互联网应用移动互联网应用特点:受终端处理性能限制,计算任务在服务器端运行,适合“云+端”形式DSE能力海量存储能力,满足移动终端数据的接续性大规模分布式处理能力,满足计算需求高速的互联网和3G网络带宽,满足应用的网络需求应用模式:Web+Widget模式,开发个性化互联网服务DSE平台移动互联网应用开发者上网本PCMID手机访问应用Browse/Widget13广州研究院DSE应用-电信应用系统电信数据分级事务型/操作型数据系统:动态实时数据,关系数据库,一致性、实时性要求分析型数据系统:静态历史数据,数据仓库,离线分析、深度挖掘,决策DSE提供大规模并行计算能力,适合对历史数据作离线分析应用模式:提供分布式数据仓库存储历史数据提供基于MapReduce的数据总结方法、统计分析方法、数据挖掘方法数据抓取/数据推送数据分析(统计分析、数据挖掘)电信运营数据(网管数据、流量数据、用户数据…)分析结果Hbase数据库MySQL数据库HDFS文件系统开发者14广州研究院DSE应用-物联网物联网:通过电子标签(RFID)、传感器、二维码等技术和设备,将物体与互联网等各类网络相连,实现物与物、物与人之间的信息交互互联网支撑系统:ONS、EPC查询超大规模的存储和计算能力,高速的网络带宽海量数据分析能力互联网应用系统:大规模的数据查询请求物联网网络物联网应用系统(数据采集、交互、传送)物联网信息支撑系统(数据分析、查询响应)DSE平台HDFSMapReduceMySQLHBase用户15广州研究院DSE应用-IPv4/IPv6应用迁移IPv6网络内容匮乏,CP/SP缺乏迁移动力构建具有双栈能力的应用迁移和内容分发平台,同时为IPv4和IPv6用户提供服务DSE提供海量存储和分布式计算能力16广州研究院目录电信面临的海量数据处理问题云计算大规模分布式处理平台云计算分布式技术应用实践17广州研究院分布式处理平台工作进展•高速Internet出口•80台PC服务器、500核、20T存储资源情况•虚拟化平台Xen,管理平台ECP•部署Hadoop、Hbase、ZooKeeper等集群软件•部署Hive,Mahout等数据挖掘工具平台部署•运营类:全网Netflow流量分析、PCA异常流量监测•信息类:行业资讯搜索,餐饮美食搜索,热点播报研发应用•可视搜索/识别技术的大规模分布式应用合作研究1718广州研究院应用实践之一:NetFlow流量分析•应用云计算集群技术实现现有系统难以实现的任务系统目标•基本的数据统计,地域分布、应用分布、流量矩阵•实时全网异常流量检测处理任务•各种统计任务的MapReduce并行化计算•应用主成份分析检测网络状态异常核心技术•全网Netflow流量每天数十TB•每秒数十万FlowRecord纪录数据规模19广州研究院应用实践之一:Netflow流量分析19ClustersizeRecordsprocessedin5minutes11355970058322984010164147740Mapreduce天然适合大型网络的Netflow流量分析和挖掘20广州研究院应用实践之二:可视搜索•利用云计算解决可视化搜索对计算和存储的高强度需求•运用可视搜索技术推动3G创新应用的研发系统目标•快速检索:LocalitySensitiveHashing•底层特征:Color,Texture,GIST,SIFT•检索模型:Bagofvisualwordswithglobalcontext核心技术•目标索引数千万张图片,数十T的存储需求•海量的数百维的高维特征向量,计算和存储高度密集•快速检索面临极大挑战,普通K近邻算法基本不可行数据规模•MapReduce能非常便捷的实现大规模的图片并行特征处理•LSH能够有条件的显著提高搜索速度,具体取决于特征分布•高维特征空间的聚类对检索效果有决定性影响,可视字典是关键因素一些结果21广州研究院应用实践之三:美食搜索系统目标利用互联网大量点评信息为用户提供快速的消费决策核心技术海量信息抓取,过滤情感分类,点评摘要21评价摘要情感分析子特性摘要网络评论信息监控评论信息摘要分类评论信息提取互联网抓取各类点评网站或者论坛的网页,例如太平洋电脑网、YAHOO口碑网利用自然语言分析、情感分析、摘要分析等技术对点评进行分类和总结实时更新的点评信息生成总体评分、评价摘要、分项评分、分项评价摘要、典型点评等信息综合点评系统22广州研究院应用实践之三:美食搜索2222226.关注趋势图7.关注情感趋势图2.按关注重点自动分类1.评论摘要3.评论摘要:按正面情感4.评论摘要:按负面情感5.评论摘要:按中立情感23广州研究院应用实践之四:行业资讯系统目标从互联网实施抓取最新的行业资讯,为企业内部人员提供IPv6、移动网、云计算等专题的最新技术信息和新闻核心技术定向抓取、自动去重、话题分类智能抽取规则定向抓取智能信息抽取关键词分类去重处理去噪处理定制关键字推送数据互联网Cinlab平台24广州研究院应用实践之四:行业资讯25广州研究院应用实践之五:热点播报系统互联网新闻新闻及评论信息提取评论信息分类网络评论信息监控热点播报系统热点事件检测抓取个新闻网站、论坛和博客的网页对新闻事件的热度进行分析,检测热点时间利用自然语言处理、情感分析、摘要分析等技术对信息分类实时更新新闻、点评数据26广州研究院26评论详情新闻详情应用实践之五:热点播报系统数据通信研究部访问门户PC用户访问门户手机终端新闻详情评论详情地头社27广州研究院应用实践之六:IPv4/IPv6协议转换网络加速融合了IPv4/IPv6互通、内容加速及重排等功能,是极富有价值的应用移动用户云计算软件平台(内容过滤,页面重排)自动分布HTTP请求内部云计算平台(加速云)IPv6互联网IPv4互联网移动用户宽带用户云计算硬件平台谢谢!更多应用体验,请访问数据部创新应用平台:
本文标题:中国电信大规模数据处理需求及实践
链接地址:https://www.777doc.com/doc-6131285 .html