您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据-PivotalAnalyticsDB27
1©Copyright2013Pivotal.Allrightsreserved.1©Copyright2013Pivotal.Allrightsreserved.PivotalAnalyticsDB(GPDB)周睿2013/07/122©Copyright2013Pivotal.Allrightsreserved.Pivotal介绍PivotalAnalyticsDB成功案例分享PivotalAnalyticsDB技术特点目录3©Copyright2013Pivotal.Allrightsreserved.Pivotal介绍“WelookatGreenplumastheleaderofsoftware-basedsolutions.”-SteveHirsch,ChiefDataOfficer,NYSEEuronext经验证的高速海量数据处理引擎领导者下一个数据仓库架构,企业数据云的倡导者行业内最优的price/performance解决方案成立于2003,总部位于美国硅谷(SanMateo)由世界级高性能计算及数据库专家组成专业研发团队2008年12月进入中国2010年8月与EMC合并,成立DataComputingDivision2013年,Pivotal,为一个崭新的技术时代构建支撑平台4©Copyright2013Pivotal.Allrightsreserved.重新定义企业级PaaS...ETC•支持开放标准并与开源有效互动•以数据为中心•不与特定云平台绑定•针对开发者的需求•针对企业的需求CloudFabricDataFabricApplicationFabricScale-outstorage:HDFS/ObjectLanguages&FrameworksIngest&Query:veryhigh-capacity&in-memoryAnalyticsServicesCloudAbstraction(portability)Automation:AppProvisioning&Life-cycleServiceRegistry5©Copyright2013Pivotal.Allrightsreserved.Pivotal介绍PivotalAnalyticsDB成功案例分享PivotalAnalyticsDB技术特点目录6©Copyright2013Pivotal.Allrightsreserved.Greenplum全球代表性客户7©Copyright2013Pivotal.Allrightsreserved.中国的代表性客户其它电信及互联网交通金融8©Copyright2013Pivotal.Allrightsreserved.案例1:河北移动流量分析项目-准确分析数据业务流量组成,精确对无效数据进行流控-基于网络资源进行精准营销,提高单位资源的价值-快速定位业务质量下降原因,缩短故障处理时长,减少因为故障导致的用户投诉和业务量下降-及时解决用户投诉,提高数据用户满意度-统一资源容量规划,准确网络扩容,减少无效投资支撑市场支撑运维支撑规划9©Copyright2013Pivotal.Allrightsreserved.河北移动流量分析的系统架构Greenplum部署情况:-二期规模:2+8节点,采用DELLR710服务器,2*IntelXeon55204Cores2.4GHzCPU,32GBmemory,M5015,2*146GBHDD,外挂2个DAS扩展盘柜,每个盘柜使用12块SATA1TB10©Copyright2013Pivotal.Allrightsreserved.河北移动流量分析项目取得的成就•目前应用情况-投诉处理分析模块的应用,数据业务客户投诉和重复投诉均有所下降。-精细化指标到小区,互联网下载速率大大提高。并应用于分公司的优化指导,实现了数据业务端到端优化。-除广泛应用于用户维护优化、客服外,也给数据部、网络部、市场部提供应用,数据部进行流量分析,网络规划、掌握各市场区域的流量发展情况,做市场计划等。•系统应用效果-业务部门:已具备针对业务、网站、终端和区域的基本分析能力,对了解用户业务喜好,对掌握对各类终端在网络上表现,对掌握各个市场区域的业务发展情况起到极大帮助。-运维部门:已具备对核心业务的业务质量监视分析能力,对掌握各业务承载质量,快速定位质量问题出现在流程的哪个阶段起到极大帮助;同时也提高了投诉处理效率和客户满意度。-规划部门:已具备对2G和TD网络下的流量流向分析能力,对2G和TD网络协同发展建设,对掌握全网业务分布和发展情况提供参考依据。11©Copyright2013Pivotal.Allrightsreserved.案例2:中国联通集团ODS大集中项目•为总部侧提供数据采集,整合,存储,发布服务生产环境•为BSS侧生产原型数据提供完整的稽核验证服务验证环境12©Copyright2013Pivotal.Allrightsreserved.项目取得的成就在有限的时间窗口内加载并格转完全国各省的数据。由于统一平台需要为总部经分和省经分同时提供数据,单日加工处理数据量为500G~1T,因此从业务平台抽取数据,装载数据到统一平台,完成数据处理,再由统一平台提供给总部经分和省经分,时间窗口不超过5小时,因此对系统效率有很高的要求。满足扩展性需要。由于存放海量分析数据,对新平台可扩展能力要求高,要求新平台在合理的软硬件预算内,最小化业务影响的条件下,可以完成扩展,并且处理能力呈线性增长。13©Copyright2013Pivotal.Allrightsreserved.案例3:FINRA(美国金融综合监管局)业务问题-全美各个交易所,银行,期货等明细交易数据竞争方案-Netezza/TeraData业务挑战-每天入库200亿条交易记录-每年数据增加200%数据仓库规模-5PB级,22RackEMCDCA,共352节点(12*CPUcore,48GRAM,12*600GBSAS磁盘,2*万兆网口)1314©Copyright2013Pivotal.Allrightsreserved.Pivotal介绍PivotalAnalyticsDB成功案例分享PivotalAnalyticsDB技术特点目录15©Copyright2013Pivotal.Allrightsreserved.基于X86架构无共享、大规模并行MPP技术MasterSegmentSegmentSegmentSegment…MasterMaster节点•建立与客户端的连接和管理•SQL的解析并形成执行计划•调度管理服务器Segment节点•业务数据的存储和存取•用户查询SQL的执行•数据库计算压力负载点Interconnect•基于开放的万兆/千兆以太网技术16©Copyright2013Pivotal.Allrightsreserved.Shared-Nothing架构优势DBSAN/共享存储DBDBDBDBDiskDBDBDBDBDiskDiskDiskDiskMasterShared-EverthingShared-StorageShared-Nothing红色表示共享资源绿色表示无共享资源17©Copyright2013Pivotal.Allrightsreserved.并行处理的关键43Oct2020051264Oct2020051145Oct2020054246Oct2020056477Oct2020053248Oct20200512OrderOrderOrderDateCustomerID50Oct2020053456Oct2020052163Oct2020051544Oct2020051053Oct2020058255Oct20200555•数据均匀分布在每一块磁盘上面•发挥每一块磁盘性能,根本上解决I/O瓶颈•支持数据Distribution分布和Partition分区数据分布式存储-均匀分布18©Copyright2013Pivotal.Allrightsreserved.SG(Scatter/Gather)Streaming1)分发阶段•网络上任意可访问服务器•性能随着节点数增加而增长•大数据批量加载或准实时加载•对数据库影响减至最少•降低实施难度2)聚合阶段•ETL只需要一个SQL(insertinto..selectfromext_table)•Segment节点并发处理,避免单点瓶颈•库内压缩技术,减少I/O请求“Greenplumisreachingdataloadingspeedsofoverthreeterabytesperhour,andweknowthatthedatabasecanscaleevenfurtherthanthat.Greenplum’sfastperformanceiscriticalforus.”StevenHirsch,ChiefDataOfficer,NYSEEuronext19©Copyright2013Pivotal.Allrightsreserved.PolymorphicDataStorage™(多态存储—同时支持行存储及列存储)•提供灵活存储技术–四种表类型:普通行表,AO表,列存储表,外部表–两种压缩技术:Gzip(levels1-9),QuickLZ•同一库内甚至同一个表中多种存储技术混合使用–灵活定义不同表分区存储结构–只需定义关键字orientation=[row|olumn]•允许用户根据不同应用场景,达到最优性能效果Table‘Customer’Jan’09Feb’09Mar’09Apr’09May’09Jun’09Jul’09Aug’09Sept’09Oct’09Nov’09Column-OrientedArchivalCompressionColumn-OrientedFastCompressionRow-Oriented20©Copyright2013Pivotal.Allrightsreserved.内置Mapreduce技术•MapReduce是Google提出的互联网时代分析搜索技术•Greenplum是第一个MapReduce的数据库产品,将SQL的普遍性与MapReduce的灵活编程模式结合起来•为非结构化大数据打开分析之门–其中包括文本分析、图形分析、数据挖掘、机器学习以及更多内容SELECTkey,REDUCE_FUNCTION(value)asvalueFROM(SELECTkey,valueFROM(mapquery)ORDERBYkey,value)r1GROUPBYkeyORDERBYkey,value;MAP:NAME:map_functionBODY:|return$value:$.|$_if(/$key/);return;LANGUAGE:perlOPTIONS:DOCMAP21©Copyright2013Pivotal.Allrightsreserved.高可靠性-镜像技术segmenthostnsegmenthost1segmenthost2masterhostGreenplumMasterglobalcatalogSegment1(mirror)Segment1(primary)Segment2(mirror)Segment2(primary)Segmentn(primary)Segmentn(mirror)primarymasterhoststandbymasterhostTransactionLogsTransactionLogssynchronizationprocessSystemCatalogsSystemCatalogs22©Copyright2013Pivotal.Allrightsreserved.动态在线系统扩容Masterseg1seg2seg3seg4seg5seg6数据自动在所有节点上重新分布容量和性能在扩
本文标题:大数据-PivotalAnalyticsDB27
链接地址:https://www.777doc.com/doc-26256 .html