您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据结构与算法 > 主流大数据处理技术及应用方案
1主流大数据处理技术及应用方案中国联合网络通信有限公司网络技术研究院王振亚2016年12月2目录一主流分析型数据库技术介绍、对比及选型二数据处理技术的演进应用方案-网研院大数据平台三3什么是大数据大数据指不用随机分析法(抽样调查)这样的捷径,而采用对所有数据进行分析处理的方法——维克托·迈尔·舍恩伯格“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产——全球领先的信息技术研究和分析公司Gartner一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征——麦肯锡4大数据4V特征VolumeVarietyVelocityValue•随时随地产生数据,数据量更大•以“低成本”的方式获得“可接受”的数据分析结果•Cheap:“廉数据”•数据具有多样性•数据来源多、类型多•Multi-X:同一对象多维描述•价值密度低•更多高价值的数据产生•对有价值数据进行“提纯”•大数据的目的•对处理速度要求更高•实时和在线•Swift:“快数据”BigDataBigMoney5大数据处理流程数据库技术是大数据处理的关键数据获取数据ETL数据存储数据分析数据服务数据库技术是大数据的关键!6数据处理技术的演进SQL/ACID传统关系型数据库的崛起,提出面向企业应用的商业智能,面向数据仓库的数据分析(OLAP)技术兴起20001995200520102015分布式技术提出谷歌提出分布式文件系统、分布式数据库和分布式计算框架,奠定大数据技术基础大数据Hadoop技术提出开源ApacheHadoop逐渐兴起,大幅推进互联网大数据应用实时计算技术提出流计算、图计算、交互式分析、内存计算等技术不断演进混合技术架构兴起Spark、Flink等新一代分析引擎融入大数据平台7数据处理框架的演进RDBMPP数据库Hadoop8数据处理框架-RDB(RelationalDatabase)特点单服务器、小型机集中式数据和业务处理ACID(Atomicity、Consistency、Isolation、Durability)Scale-UpOLTP(On-LineTransactionProcessing),响应时间敏感成本低缺点大数据处理性能较差容灾性较差稳定性有局限业务和数据处理规模有限扩展性和灵活性较差9数据处理框架-MPP特点MassivelyParallelProcessing多服务器、多节点,多任务并行执行数据分布式存储和计算ACIDScale-outOLAP(OnlineAnalyticalProcessing)商业化缺点扩展规模有限对并发的支持有限节点增删维护工作较复杂不支持非结构化数据成本较高10Hadoop,允许使用简单的编程模型,以跨集群分布式的方式,处理大型数据集。具有可靠、高效、可伸缩的特点。它的目的,是从单一的服务器到上千台机器进行扩展,从而利用各自的本地计算和存储资源。是一个能够让用户轻松构建和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop在应用层面检测与处理各类错误,因此能够在一个集群内实现高可用性。并且Hadoop已经成为大数据行业的标准,形成了一个健康活跃的生态系统。可靠性、高扩展性、高效性、高容错性、低成本。Hadoop生态系统11数据处理框架-Hadoop特点多服务器、多节点的集群架构大数据多任务的分布式处理HDFS(HadoopDistributedFileSystem)——分布式文件系统、流式访问MapReduce——曹冲称象,分而治之可靠、高效、高扩展(Scale-out)、高容错、低成本可处理多种格式数据源,非结构化、半结构化数据开源缺点对SQL的支持有限无法高效存储大量小文件不支持多用户写入及任意修改文件缺乏专业的支持服务12数据处理框架的对比数据库框架分析性能扩展性容灾性数据类型业务场景支持全SQL异构数据整合成本RDB一般较差较差结构化OLTP能不支持中等MPP好局限局限结构化OLAP能不支持较高Hadoop好好较好(非)结构化OLAP部分支持低没有最好的技术,只有最合适的技术。针对业务需求“有的放矢”。13目录一主流分析型数据库技术介绍、对比及选型二数据处理技术的演进应用方案-网研院大数据平台三14分析型数据库分析型数据库是面向分析应用的数据库,可以对数据进行统计分析和即席查询等挖掘数据价值的工作。传统数据库是以事务处理为主,大数据时代的主要应用则是数据分析。数据库三大阵营:OldSQL、NoSQL、NewSQL分析事务互联网OldSQL一种架构支持多类应用NewSQL分析OldSQL事务NoSQL互联网OldSQL+NoSQL+NewSQL多种架构支持多类应用15大数据下的分析型数据库NewSQL•列式存储•关系型•ACID•MPP分布式计算,分布式文件系统内存计算(InMemoryComputing)新的硬件:FlashCard,SSD,高速网络、InfinibandNoSQL•列式存储•Key-Value•灵活性•MPPOldSQL•行存储•关系型•ACID•SMP16OldSQL►OldSQL是指传统的关系型数据库,借助于数学概念和方法来处理数据。►数据规范化:关系型数据库的数据存储是为了更高的规范性,把数据分隔成最小的逻辑表(关系表)以避免重复,获得最精简的空间利用。►事务性:SQL数据库支持对事务原子性细粒度控制,并且易于回滚事务。17NewSQL►NewSQL是对各种新的可扩展、高性能的关系型数据库的统称。►既能够提供OldSQL的质量保证,也能提供较强的可扩展性。18NoSQL►大数据类型的多元化急速增长,OldSQL不满足分布式技术架构的适用性。►NotOnlySQL,泛指非关系型的分布式数据库。19OldSQL&NoSQL&NewSQL总结海量数据实时分析Vertica/Impala20类型OldSQLOldSQLOldSQLNoSQLNoSQLNoSQLNoSQLNoSQLNewSQLNewSQLNewSQL存储方式行/列式存储行式存储行式存储分布式文档存储分布式K-V存储分布式列式存储分布式HDFS分布式HDFS行式存储分布式存储分布式列式存储运算方式磁盘磁盘内存内存/磁盘内存/磁盘内存/磁盘内存磁盘磁盘磁盘内存/磁盘系统架构RDBMSRDBMSRDBMSC/S分布式集群C/S分布式集群HadoopHadoopHadoopC/S分布式集群MPPMPP支持SQL支持支持支持不支持不支持需插件类SQL类SQL支持支持支持大数据处理能力较差较差一般较好较好好很好好好好很好容灾性较差较差较差较好较好好好好较好好好应用场景传统数据分析WEB应用低成本内存运算对象存储及处理数据键值关系突出海量存储与扩展实时分析批处理分析二次订制开发数据仓库即席查询扩展性Scale-upScale-upScale-upScale-outScale-outScale-outScale-outScale-outScale-upScale-outScale-out开放性商业开源商业开源开源开源开源开源开源开源商业目前主流分析型数据库对比21分析型数据库选型思路决定性因素关键因素一般因素分析需求数据格式数据存储方式数据分析运算能力数据查询能力稳定性&容灾能力架构选择可扩展性成本22目录一主流分析型数据库技术介绍、对比及选型二数据处理技术的演进应用方案-网研院大数据平台三23一运行分析视图二大数据平台总体架构规划支撑视图三决策支撑视图四目录24网络建设初期阶段•阶段一:先期基于路测数据、投诉数据进行简单分析;后引入MR数据进行深度覆盖分析;•阶段二:网络规划建设简单、粗糙,直接在空白区域建设。•缺乏针对用户、业务和终端进行深入关联分析;网络精细化建设阶段•基于现网23类运行数据,建立了基于移动网络“O域+B域”数据的分析方法体系;•在长春、成都、重庆、广州、兰州、上海6重要城市进行推广和验证。•探索六城市精细化建设支撑,并固化方法模型。大数据平台化阶段•基于“以我为主、自主研发”原则,搭建大数据分析平台,进行迭代式开发,实现方法固化。•逐步实现全网数据的统一采集、解析与存储管理;•开发大数据平台,实现规模化、精准化建设支撑。通过运行数据挖掘分析,实现网络优化精准分析、提升网络建维优的精准性和有效性网研院大数据平台-背景25人在哪干什么怎么样网研院大数据平台-建设总体思路用户群体特征分析用户群体的行为轨迹分析不同业务体验分析B侧价值发现覆盖能力评估用户投诉O侧网络定位网络性能、质量网络问题分析关联要素时间小区终端业务区域三大落地支撑客户维系,支撑精准市场推广维度接口3G4G分析定位问题支撑引导规划网络性能反馈支撑网络运维优化,改善网络质量支撑网络规划建设,提高资源投放精准度26网研院大数据平台-方法体系全面梳理23类数据序号分类数据源1OSS侧数据基础数据2DT/CQT数据3IU-PS(挂表采集)/Gn数据4CDR(平台采集)5MR数据6无线话统数据7无线参数8核心网参数9告警数据10无线侧呼叫记录数据11设备版本及补丁12设备与板卡负荷数据13无线COUNTER数据14核心网报表数据(核心网COUNTER数据)15投诉数据16话单数据17配套资源配置及运行情况18BSS侧数据用户信息19月度话单数据20语音详单21数据详单22套餐信息23终端数据库系统建立现网分析方法体系-24个分析模块序号分类分析模块项目1网络与资源无线侧资源情况室内外站、建筑物、物理站址分析2网络覆盖下行覆盖、上行干扰、上行干扰分析3资源瓶颈网络资源、空口效率、载波负荷分析4网络性能网络侧性能指标、问题小区分析5网络结构站高、站密、重叠覆盖、有效性分析6多网协同2、3、4G多网络协同分析7用户与终端终端情况终端统计、终端与用户及业务分析8用户情况用户情况总体分析9用户画像用户属性、消费、时间、业务等标签10群体特征分析用户结构及用户偏好分析114G转网用户分析4G转网用户及潜在4G用户分析12感知分析用户各类业务感知分析13用户轨迹各级别用户迁徙及单用户轨迹分析14业务与应用业务情况语音数据业务、分类主流业务分析15业务分布及特征总体业务情况及分类业务情况16业务质量语音、CSFB、数据业务质量分析17综合专题趋势分析小区数、用户数、业务量等发展趋势18联合分析覆盖、结构、资源、感知综合分析19资源重点投放场景、网格、扇区等区域价值分析20LTE部署区域LTE部署区域及部署建议分析21LTE站址分析LTE站址可用性及合理性分析22流量经营终端、流量、闲时包及业务内容营销23总览总览资源、用户、业务、网络、终端总览24简报简报全国级及省级基本简报和自定义简报全方位支撑-10个应用方向用户画像、聚类及签转分析用户终端业务网络经营用户黏性和潜在离网预判基于轨迹和感知的投诉支撑主流业务的感知分析及回溯各粒度价值区域分析网络质量&性能预警及回溯网络调整与技术演进支撑多维度的网络规划方案终端特征、性能评估体系流量经营支撑27内部可实现对2/3/4G现网各接口及设备数据的解析能力,能够满足现网网络优化需求;可满足全国B+O数据的存储与处理;实现一体化解析、存储与管理;与数据中心共享资源,着重网络分析应用;具备商业智能数据分析能力,可对外开放接口,实现海量数据的可视化分析;5*N:满足纵向从集团到省、市、县、网格,横向从N个专业线条的多层次、全链条支撑需求,同时可逐步对外部行业应用需求进行适配。网络资源精准投放基于投诉问题定位现网用户维系精准营销API接口开放各行业应用外部平台能力网研院大数据平台-平台能力28网研院大数据平台-平台架构元数据管理数据质量管理数据层ETL层数据处理层中间层数据展现层元模型管理元数据采集元数据分析元数据共享辅助开发运维辅助业
本文标题:主流大数据处理技术及应用方案
链接地址:https://www.777doc.com/doc-7032449 .html