您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 南大通用范多锋---MPP数据库技术,支撑行业大数据应用34
InsertPictureHere软件发掘数据价值MPP数据库技术,支撑行业大数据应用范多锋南大通用数据技术股份有限公司InsertPictureHere软件发掘数据价值MPP数据库技术,支撑行业大数据应用范多锋南大通用数据技术股份有限公司3*3目录一MPP数据库技术及实践GBase8aMPPCluter产品特性二企业简介四GBase8aMPP电信和金融案例三MPP(MassivelyParallelProcessing):大规模并行处理系统,系统由许多松耦合处理单元组成的。每个单元内的CPU都有自己私有的资源,如总线、内存、硬盘等。在每个单元内都有操作系统和管理数据库的实例副本。这种结构最大的特点在于不共享资源。万兆网络..Interconnect存储+计算节点MPP架构应具有的特征:任务并行执行数据分布式存储(本地化)分布式计算私有资源横向扩展SharedNothing架构MPP架构产品:MPP数据库NoSQL2什么是MPP?55核心功能核心价值软件定义的架构:基于通用硬件高性能:大表关联、复杂SQL、即席统计、多维分析易用性:对应用透明可靠性:自动故障诊断、修复、硬件在线替换能力安全性:用户权限、审计支持严格的关系模型:SQL92,加扩展,加存储过程支持事务、保证数据强一致性:2阶段提交,ACID特征数据存储格式和存储分布优化:很好的OLAP性能和扩展能力深度优化的分布式、单节点SQL优化器:MPPRDBMS的主要特征和价值6并行数据库系统的发展典型的并行数据库产品Teradata/NCRIBMDB2WED(WarehouseEdition)MicrosoftSQLServerPDWGreenplum(EMC),Vertica(HP),Nettezza(IBM),AsterDatanCube(Teradata),Exasolution,ParAccelAnalyticalDatabaseGBase8aMPPCluster…1992-ParalleDatabaseSystems:ThefutureofHighPerformanceDatabasesystems.ByDavidDewittandJimGray70年代RDBMS理论的出现推动了现代数据库的高速发展Oracle在1978年出现,Teradata在1980年出现基于MPP架构的并行数据库(RDBMS)典型案例Scaleout(MPP)..Scaleup(SMP)高性能+高扩展能力高性能节点扁平,对等高扩展能力MPP集群SharedNothing+MPP集群性能随节点数增加呈近似线性关系MPP数据库的主要设计目标:横向扩展7从大规模数据、复杂关联查询、即席查询的需求考虑,无论是电信运营商还是金融用户的技术选型包括:传统数据库、Hadoop、大规模MPP集群。三者应对场景各有侧重,综合当前的三大需求,大规模MPP集群必然是大数据应用所需的产品之一。MPP数据库和Hadoop对比查询复杂度数据规模即席、自助查询数量Hadoop(NoSQL)传统数据库(OldSQL)8大规模MPP数据库集群(NewSQL)大数据的宏观视图:行业与互联网大数据9文件报表纳税分析社保分析决策支持预测结构化+半结构化公安网监国安技侦舆情监控银监会稽查食品溯源环保监测结构化+半结构化音视频地震勘探气象云图卫星遥感雷达数据物联网非结构为主行业大数据的体量与互联网大数据的体量相当,在一个数量级上行业大数据的价值密度高于互联网数据行业大数据为数据库厂商带来的商业机会和商业价值高于互联网大数据。电信信令电信话单金融细账金融票据电力调度智能电网经营分析结构化为主10%结构化30%半结构化60%非结构化价值密度结构化半结构化非结构化大数据行业大数据互联网大数据经营类管理类监管类专业类数据处理平台基础数据源业务数据文本数据音频数据视频数据…事务型数据库(在线业务数据)MPP数据库(高价值密度结构化数据)流处理技术Hadoop(低价值密度数据)大数据应用DW数据集市数据集市数据集市元数据索引数据半结构化数据OLTP非结构化数据结构化数据列存储粗粒度索引压缩技术SQL优化动态扩展资源管理HIVEPIGMapReduceHDFS大表关联并行数据加载事务数据完整性锁机制索引SQL执行SQL优化监控管理备份恢复断点处理缓存技术行业大数据应用未来趋势-混搭架构10大数据技术在电信行业的混搭架构案例78ODSDWDDWA数据集市数据集市SMPMPP高价值密度数据(结构化)数据集市数据模型内存数据库实时流数据低价值密度数据(结构化、非结构化、半结构化)结构化高价值数据批量数据互联网网页互联网行为设备日志流量日志系统日志详单………………非结构化半结构化结构化URL类别库分词库HadoopSMP/MPP网络信令网络信令网络信令数据采集与交换业务类数据通信类数据互联网数据日志类数据统一数据服务*12目录一MPP数据库技术及实践GBase8aMPPCluter产品特性二企业简介四GBase8aMPP电信和金融案例三•列存储•智能压缩•粗粒度智能索引•SMP多线程并行架构•标准SQL92+BI函数扩展•标准接口:ODBC/JDBC/ADO.Net•管理工具•星型模型优化•ROLAP优化•基于知识理论和成本的SQL优化器•完整的事务支持•跨平台GBase8a列存储数据库单机版架构141414SQL应用程序..Interconnect数据库节点数据分发节点无Master,节点对等的扁平架构。高性能,高密度节点。完全并行的MPP+SharedNothing架构,在线节点动态伸缩。多副本数据,透明高可用。ftp,nfsetc外部数据来源GBase8aMPPCluster:列存储+MPP数据库GBase8aMPP数据库关键技术和理论极值15智能索引水平分区自适应压缩列存1TB100GB100GB10GB10GB1GB1GB100MB大部分应用中性能的瓶颈是磁盘IO。所以新型数据库的设计都以降低磁盘IO为主要设计目标。为此采用的技术有列存储,压缩,分区,智能索引(粗粒度)。每一项技术都有可能提升10倍的性能。理论极值是10000倍提速,实际达成10-100倍提速。设计目标1.I/O降低到1/102.压缩比1/103.性能提升10倍以上MPP并行计算技术之:SMP+MPP多层并行16SortLimitopsFinalResultsetScanA(p1)ScanB(p1)ScanA(p2)ScanB(p2)ScanA(pn)ScanB(pn)…节点1节点2节点n同时可使用:计算能力1千个核,I/O10GB/s,内存10TBSelect*fromTWherecalldatebetween‘20140101’and‘20140131’Andmsisdn=‘18612345678’msisdn186123456701861234567818600009999qty10050230calldate201401012014012220140217fromcity北京天津上海同一个表_all_cols18612345670&100&20140101&北京18612345678&50&20140122&天津18600009999&230&20140217&上海列存储格式+智能索引优化的行存储格式高效物化投影字段列存储做为index高效过滤行列混合存储–兼顾统计与内容查询如何同时高效满足select*fromT和selectsum(c1),count(c2)fromT?8aMPP与HadoopHDFS高速数据交换功能18万兆网络+交换机..InterconnectDNDNDNDN..DNDNDNDNNN8aMPP集群Hadoop集群可实现20TB/小时的数据交换,对于1PB裸数据、压缩后约200TB,用10小时可实现全备份,为PB级数据仓库提供备份解决方案。*19目录一MPP数据库技术及实践GBase8aMPPCluter产品特性二企业简介四GBase8aMPP电信和金融案例三电信行业数据分析需求特征电信行业数据,主要面临数据规模大、关联查询复杂、即席查询多、混合负载等挑战20GBase8aMPP数据库-电信行业应用场景21GBaseMPP数据库-电信行业应用案例运营商客户名称业务类型集群规模联通XX联通OCS云清单查询•10+2节点•20TB数据规模云数据库平台•12+2节点•28TB数据规模XX联通网综分析•8+1节点•50TB数据规模XX联通详单压缩•2+1节点•9TB数据规模XX联通流媒体日志管理•2+1节点•3TB数据规模XX联通BSS日志管理•2节点•10TB数据规模XX联通历史话单存储•3+1节点•80TB数据规模移动XX移动详单查询•24+2节点•350TB数据规模用户特征库•18+2节点•180TB数据规模XX移动经分系统•18+2节点•90TB数据规模XX移动网综分析•4+1节点•210TB数据规模XX移动经分系统•4+1节点•20TB数据规模电信XX电信全业务查询系统•4+1节点•10TB数据规模XX电信经分系统•18+1节点•20TB数据规模22GBase连续3次参加中移动的MPP产品选型测试23序号公司名称时间测试目的&结果1中移动数据仓库选型入围2012年完成规定的时间内顺利完成测试,与HPVertica和EMCGreenplum得到客户认可2中移动总部VGOP项目2013年完成作为VGOP投标入围选型,在规定的时间内顺利完成测试,成功入围VGOP项目投标3中移动集团集中经分项目2014年9月正在内测,等待入场GBase是唯一被邀的国产数据库品牌Exadata南大通用电信行业-使用国产MPP数据库实现去IOE24某省经分系统云化改造工作,建设目标确立为:构建X86架构下“低成本、高效益,高性能”的云经分平台,支撑精细化运营管理和实时精确营销需求。•活跃用户规模达7200万•日均进入数据量超过2.3T•月数据50T•数据总规模超过500T(DW、DM、历史库等)•增长快速,向PB级数据迈进•系统基于开放式、低成本的X86架构•搭建基于ETL的数据分发平台•以专题为单位将应用迁移到新的仓库平台•涉及应用包括:客户标签、SGSN/A口实时营销、ETL等电信行业-使用国产MPP数据库实现去IOE252626电信行业–使用国产MPP数据库实现去IOE•原系统使用3台IBM高端小型机+DB2,新系统使用16台x86服务器+GBase8a集群•系统拥有8个安全组,组内2个节点互为备份,节点发生故障仍能提供服务,具备高可用性•原系统投入3000万,新系统仅花费100万,整体成本降为原来的1/30,大量节省系统投资,而性能与原系统相当•去IOE,建设基于国产开放式、低成本的X86服务器集群云化架构交往圈识别重入网识别WLAN准实时营销CI自助分析……Node1Node2Safegroup1Node3Node4Safegroup2……Node17Node18Safegroup9基于JDBCODBCADO.NETC-API的统一接口数据加载机金融行业–首家金融关键系统中实现国产化替代27……核心系统信用卡抽取、加载、转换质量检查加工、汇总CognosBODataMiningJava应用审计AML信用监管报表CRM信用卡分析管理会计……OCRM系统其它系统应用层分析展示层数据存储、管理层抽取加载层数据来源层GBase8aMPPCluster56个节点支撑的数据仓库平台加载ODSxDSyDS集市•某国有银行总行数据仓库原系统SybaseIQ+小型机+阵列建立的分析类系统遇到了性能瓶颈,南大通用GBase8aMPP凭借技术优势完胜IQ,成功中标某行数据仓库项目。•新系统:GBase8aMPPCluster+X86PCServer架构。•目前系统每天处理4000个以上的复杂作业,系统最大的表,已经超过1000亿行。•系统支撑包括贷记卡、信用卡、网络银行、资金转移定
本文标题:南大通用范多锋---MPP数据库技术,支撑行业大数据应用34
链接地址:https://www.777doc.com/doc-24936 .html