您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据平台架构及建设思路
做国内最佳、创国际一流的通信咨询设计企业大数据平台架构及建设思路2019/10/10中国移动通信集团设计院有限公司-1-三、中国移动大数据平台建设思路二、主流技术比较一、大数据介绍-2-什么是大数据“大数据”是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。目前,大数据的一般范围是从几个TB到数个PB。——麦肯锡无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的大量而复杂的数据集合。——维基百科数量大、获取速度快或形态多样的数据,难以用传统关系型数据分析方法进行有效分析,或者需要大规模的水平扩展才能高效处理。——美国国家标准技术研究院(NIST)体量大、快速和多样化的信息资产,需用高效率和创新型的信息技术加以处理,以提高发现洞察、做出决策和优化流程的能力。——Gartner公司-3-运营商对大数据的理解网络数据、用户数据、应用数据的汇聚构成了我们的“大数据”。这些结构化、非结构化的数据的处理和建模形成对用户、服务、资源、终端等对象的洞察。这些洞察与市场营销、网络运维等业务流程的衔接将会给公司带来新的价值。大数据具备Volume海量、Variety多样、Velocity快速、Value价值的特点。据Ericsson预测,到2018年,每个手机终端每个月将产生2G的数据。(EricssonMobilityReport,2013年)改善市场运营效率结构化数据处理非结构化数据处理网络数据•话单XDR•性能监测•故障监测•网络资源用户数据•HSS信息•BSS数据•OSS数据•终端应用数据•内容DPI•Web•Socialmedia•APPS洞察:用户/服务/资源/终端/......提升网络运维效率改善客户满意度创新商业模式数据采集建模分析运营改进传统商业智能大数据1大数据2批处理,事先定义的查询和模型非结构化的数据,包括互联网日志、web文本信息,非实时或准实时流处理,实时的内容智能感知,策略执行,连续更新价值实时性采集、建模和应用数据处理实时性与价值呈正比-4-中国移动数据分布B域B域数据以客户关系、用户行为、产品信息等为主,支撑客户经营和产品营销等O域O域数据以设备数据、告警信息和性能信息等为主,支撑网络监控、网络优化、用户投诉处理等M域M域数据以财务、人力资源、供应链和办公信息等为主,支撑企业管理、企业办公信息化等DPI数据域DPI数据域以上网日志、内容构成、用户轨迹、网络信令等为主,可支撑流量经营、网络运维和增值服务等业务平台九大业务基地:基地数据以用户信息、用户行为信息等为主,可支撑个性化推荐、优化产品和服务等。WAP/短彩信:存储网络日志,可支撑定位网络及终端问题。-5-运营商大数据运用对内:客户上网数据处理、网页爬取和网页分类、分析挖掘客户上网行为详单查询、上网日志查询流量分析、客户视图、精准营销网络运维优化对外:与航空公司合作,建立乘机客户识别模型,提供大数据挖掘、客户发展全流程大数据信息服务,提供针对性的营销方案与交通运输部、省高速公路合作,开展“基于移动大数据分析在交通行业中的应用”研究项目利用通信信令实时分析景区人流量,结合游客的行为数据挖掘,为旅游管理部门、景区提供数据的决策参考以客户授权为依据,发挥移动客户实名数据优势,为互联网金融提供客户信息验真服务与外部客户合作在手机冲浪平台实施移动广告精准投放目前主要的电信运营商都已积极探索开发其内部大数据资源。但从目前的应用发展看,电信运营商的大数据仍主要用于内部服务的,如支持内部的客户流失分析、营销分析和网络优化分析等,对外的应用模式尚未成型,部分电信运营商开始尝试通过给第三方提供数据产品和服务,进行数据的增值。-6-三、中国移动大数据平台建设思路二、主流技术比较一、大数据介绍-7-大数据具备数据量大、数据类型多、数据处理速度要求高和价值密度低的特点,传统分析系统架构(RDBMS+小型机+高端阵列模式)下,传统数据库无法支撑海量数据(如100TB以上,性能下降)、非结构化数据,现有IOE的架构无法线性扩展且成本高昂。大数据处理技术大数据对传统数据处理技术体系提出挑战大数据处理技术OldSQL:传统关系型数据库NewSQL:新型MPP数据库,关系型数据库NoSQL:泛指非关系型的数据库Hadoop:对大量数据进行分布式存储和处理的软件框架-8-大数据三大技术比较面对海量种类繁多的数据进行实时数据分析和离线数据分析,仅有传统的数据库技术已不适用,需要针对不同数据场景选择不同技术手段。MPP数据库:适合结构化数据的深度分析、复杂查询以及多变的自助分析类应用、数据集市等。Hadoop:适合海量数据存储查询(详单存储和查询)、批量数据ETL、非结构化数据分析(日志分析、文本分析)等。传统数据库:在复杂关联、汇总、事务处理方面能力强,适合数据量小、高可靠、数据价值密度高的应用。-9-中国移动大数据目标架构数据处理层(数据存储、数据计算、数据共享)基础数据资源池(HADOOP)Map/Reduce2HIVEHbaseHDFS分析数据资源池(MPP)分布式关系数据仓库SPARKSharkYARN统一调度流处理资源池分布式内存数据库实时行为识别复杂事件处理框架实时模型计算任务调度资源管理统一作业数据管理元数据管理数据质量管理经分数据模型计算网络数据模型计算管理分析模型计算…数据调度•Hadoop平台软件部署于Hadoop大数据处理集群,实现海量非结构化数据存储与处理以及结构化数据的垂直汇总。在当前数据种类繁多、数据处理复杂的情形下,不适合采用一种的单一的技术解决全部问题,大数据平台据需要采用Hadoop资源池、MPP数据库、流处理资源池混搭大数据技术架构数据平台基于MPP、Hadoop、流处理等云计算、大数据技术•流数据与复杂事件处理(CEP)规则引擎平台用于对数据流进行实时处理,实现对高速数据流的接入与实时处理,实时探测关键事件•MPP数据库用于结构化数据的关联分析。一体机资源池(DW)OLAP应用•DW数据库用于分析处理统计分析类OLAP应用-10-三、中国移动大数据平台建设思路二、主流技术比较一、大数据介绍-11-建设思路由易到难,稳步推进:初期以数据整合为主,逐步面向内外提供数据服务。管控架构,同步推进:同步推动数据标准化和组织机构变革,为大数据共享平台商用奠定基础。自主掌控,能力内化:逐步培养自研团队,构建研发运营一体化能力。-12-中国移动大数据平台架构企业级省大数据平台的技术架构包括数据采集、数据存储与计算层、开发框架和应用中心四层,同时包括统一运维管理为各类使用人员提供服务。在大数据技术架构中数据的存储和计算是紧密相连的。数据源B域O域M域业务平台互联网外部数据流处理流采集流计算批量采集(云化ETL)网络爬虫存储与计算分布式存储计算集群清单级数据处理MPP深度分析数据挖掘数据仓库即席查询KPI开放框架数据开放数据服务管理服务开发者管理工具开放数据挖掘工具数据展示工具数据加工工具应用中心行业类数据产品使用者经营分析师决策人员产品策划经理渠道经理片区经理集团客户经理营业员大客户经理设计者……开发者运维者数据治理元数据管理数据质量管理数据资产管理数据标准管理数据安全管理平台运维多租户管理及统一调度运维数据采集监控告警分析安全管理系统运维外部用户资源开放存储资源开放计算资源开放统一数据采集统一数据中心平台类数据产品其他类数据产品-13-建设重点1——与其他分析型平台关系大数据共享平台:全网XDR数据采集、标准化、全量存储(1个月)全网网管数据采集、标准化、全量存储大数据共享平台实现负责xDR数据和网管数据的统一集中采集和预处理;提供上层应用对xDR细粒度数据的查询响应。按应用需求进行多维度小粒度汇总、数据整合、存储提供明细数据查询、轻度汇总数据查询。性能管理系统:从大数据共享平台获取应用所需全量小时汇总数据。数据缓存层:负责对来自于大数据共享平台的数据进行深入处理和缓存;为应用层提供各种汇总数据存储、处理与共享,以及综合分析与深度挖掘。应用层:承载上层各类应用软件和第三方应用,实现上层应用。-14-第14页2G3G4GWLANNetworkDataacquisitionDataparsingDatastorageApplicationE1InterfaceSignalingParsingDPIProcessingTrafficIdentifyCDRFusionATMInterfaceFE/GEInterfaceDatastorageanddataserviceforeachapplicationsystemPerformanceAnalysisBehaviorAnalysisDataOperationIndustryApplication-15-建设重点2——制定数据治理规则规范约束构建基础提升改进数据评估数据盘点数据治理制定安全流程系统间数据流数据统一视图数据字典数据标准评估数据安全评估统一数据标准数据实体典型问题分析与改进建议强化治理组织完善数据质量数据质量评估数据治理方法•按照规则从数据源直接采集,避免重复采集数据。•对于现有系统已采集的数据,发掘沉默数据的剩余价值。•对于现有系统未采集的数据,增加采集点并发掘数据价值。•采集后的数据存储,遵照各域属地化存储原则,各域的数据仓库是公共仓库,全公司共享使用。数据采集规则•按照规则进行数据统一清洗,清洗后根据不同专业应用需求,进行数据分发和权限控制。•对于数据缺失不能满足应用需求的,要么修改数据清洗规则,要么重新采集数据。•从各域共享数据和标签组合中,探索大数据对内对外的应用场景和未知价值。数据应用规则-16-建设重点3——HADOOP服务器测算模型模型搭建:根据HDFS存储容量能力计算,主要分为两个方面:一是某一体量的数据在采用不同的数据处理技术时,它所需要的物理存储容量、即磁盘裸容量的理论计算;二是针对配置一定情况下,X86服务器在承载不同的数据处理技术实体时,该X86服务器能够提供的有效存储容量。最终得出某一体量的数据在采用不同的数据处理技术时所需要配置的X86服务器数量=物理存储容量÷X86服务器能够提供的有效存储容量。HDFS存储能力需求计算模型序号参数名称取值范围取定值(TB)1原始存储数据量TB1002副本数333索引率20%~30%30%4数据压缩率1/2/3/4/53物理存储总容量=[1]*[2]*(1+[3])/[4]130序号参数名称取值范围取定值(TB)1单碟物理容量1TB~4TB42有效存储碟数量123划盘损坏10%~20%20%4HDFS生成日志所占空间85单台服务器有效存储总容量=[1]*[2]*[3]-[4]30.4按此模型共需要130÷30.4=5台X86服务器。-17-1、HADOOP集群互联带宽需求:跨机房:点对点的带宽≈机房间互联带宽/节点数Hadoop集群的NameNode节点不支持跨机房部署,DataNode节点跨机房部署时,机房间的互联电路为关键电路,承载两机房间各数据节点间通信。若互联电路故障时,则会导致集群不可用。DNDNDNDNDNDNNameNode机房1机房2机房间的带宽量将限制多节点间的传输带宽,如以机房间电路10G、300节点计算,节点间带宽为:10*1024/300≈34Mbps…………结论:1、HADOOP集群采用单局点部署,可保证集群正常工作,通信效率高。2、HADOOP集群采用多局点部署,为减少通信延迟,必须保证集群节点间传输带宽,按本期集群228个节点测算,需要互联链路300G(有保护链路),传输需要投资约1000万元。综合考虑,建议大数据平台采用单局点部署。建设重点4——HADOOP集群对局址的选择1/2-18-2、HADOOP集群互联延迟需求:为保证数据节点间数据同步,HADOOP集群内节点间延迟要求小于1毫秒(业界公认指标),若延迟大于1毫秒,会出现数据同步出错情形。交互耗时分类单位耗时(us)数量耗时小计(us)跨纬五路-淮南IDC机房总耗时(us)单局点机房总
本文标题:大数据平台架构及建设思路
链接地址:https://www.777doc.com/doc-1446560 .html