您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > POWER大数据解决方案_房树新33
大数据解决方案交流房树新国际商业机器(中国)有限公司Agenda•从传统架构到大数据架构的转变•几种典型方案介绍•大数据案例分享企业级市场的大数据应用机会KeyIndustryOpportunityandTrendsTelecom,BankingandGovernmentcontributethelargestincrementalBigData&Analyticsmarketsizefrom2013to2017inGCG•Morerationalthanlastyear,notonlyfocusingonHadoopplatform•Telecom,Banking,Gov’tsectorswillhavemoredemandsforadvancedBD&Asolutions•HelpcustomersbegintheirBigDataJourney•Bigdataasservicesbegantoemergeinthemarket如何着手考虑大数据——五个建议海量数据的处理方案三种分析与计算模式的整合传统分析方法和大数据分析方法的整合银行与金融市场行业的大数据的部分场景从传统数据处理到大数据,技术的变革SQL事务分析事务OldSQL分析NewSQL互联网NoSQL传统时代数据处理一种架构支持多类应用(OneSizeFitsAll)大数据时代数据处理多种架构支持多类应用架构多元化传统数据库的基本架构是30年前以事务处理为主要应用设计的。大数据时代应采用新的技术架构。行业的技术大思路应该由“一种架构支持所有应用”转变成“多种架构支持多类应用”。数据库行业出现三个互为补充的三大阵营,OldSQL、NewSQL和NoSQL。从传统数据处理到大数据,技术的变革数据管理能力TBPBEB数据价值密度/实时性高低OldSQLNewSQLNoSQL流计算/内存计算Stream/Storm/Spark内存关系数据库TimesTen/Altibase内存KV数据库Memcache/Redis内存数据分析DB2BLU/HANA海量数据批处理HadoopM-R/Spark海量数据管理MongoDB/SequoiaDB/Impala/HBase数据仓库/MPPDB2DPF/GreenPlum/GBase传统事务处理Oracle/DB2/SQLServer大数据计算需要什么样的硬件平台?•OLAPDWBigData•SQLNoSQLNewSQL•RDBMSHadoopSpark•批处理交互分析流计算更大容量更低成本更快的处理速度支持多样化的计算类型•横向扩展的能力•更大更多的磁盘•更少机器更少空间和耗电•更低的造价游戏Map-ReduceHPC图像渲染云存储工业仿真计算密集消重/归档风险分析IO密集流计算实时分析/交互分析•更快的CPU•更多的线程并行•更大的内存容量和带宽•更大的IO带宽•Flash加速大数据处理技术的发展,对硬件提出了更高的要求…•灵活的硬件配比支持从计算密集到IO密集多种计算类型•灵活定制硬件创新,CPU、GPU和混合计算•多种计算负载的混合调度PowerLinux与Software兼容需求软件软件产品软件类别商业运营公司应用客户操作系统•Redhat/Suse/Ubuntu•centos•红旗Linux•中标麒麟OS•Linux-like•Linux-like•Linux-like•BSD•Redhat/Noval/Canonical•普华基础软件/中移苏研•红旗Linux公司•中标软件•……•中移动•政府•政府数据库•KingbaseES•GBase•达梦DM•MongoDB*•Memcache/Redis•SequoiaDB•MPP内存数据仓库•MariaDB•PostgresQLXC/XL•MySQL•HBase•FastDB•OLTP•MPP-OLAP•OLTP•文档数据库•K-V•文档数据库•MPP-OLAP•OLTP•RDB-OLTP•OLTP•KV-列•InmemoryDB•人大金仓(普华控股)•天津南大通用•武汉达梦•MongoDB•NA•广州巨杉公司•威讯柏睿(北京)•NA•亚信/中移苏研•Oracle•NA•NA•政府•运营商/政府•国网•……•……•OTT/银行/运营商•金融证券•OTT•运营商•OTT/运营商•……•……PowerLinux与Software兼容需求软件软件产品软件类别商业运营公司应用客户中间件•BES•ApacheTomcat•Nginx•RabbitMQ•ApacheActiveMQ•Linuxvirtualserver•JavaEE•Webservice•HTTPserver•MessageQ•MessageQ•LoadBalance•宝兰德•NA•NA•NA•NA•NA•运营商•……•……•……•……•OTT大数据•ApacheHadoop•CDHHadoop*•HDPHadoop•TDPHadoop•BC-Hadoop•HuaweiHadoop•ElasticSearch/Lucene•Flume•Kafka•Storm•Hadoop•Hadoop•Hadoop•Hadoop•Hadoop•Hadoop•搜索引擎•日志采集•日志采集•流计算•NA•Cloudera/Intel•Hortonworks•星环科技•华为•中移苏研•NA•Cloudera•NA•NA•……•最多•较多•较少•部分•较少•较多•较多•较多•部分Linux社区贡献排名公司第2,主流Linux发行版均有Power优化版本,Power支持KVM虚拟化。IBMPower与开源的合作白金赞助商,19个核心贡献者,贡献排名第2,超过100个活跃开发者。IBM基础架构云全面以OpenStack为中心。投入10亿美金发展Linux及相关开源技术。IBM发起创立软件定义网络开源联盟Hadoop社区主要贡献者,提供Hadoop发行版,发起成立ODP,提供Hadoop增强方案。IBM与国内实力最强的星环、亚信,巨杉等新技术公司合作,开发Power优化的Hadoop版本和NewSQL数据库,与国内公司一起拓展开源商业生态系统。IBM与Redis合作,基于IBMCAPICPU硬件加速技术,建立创新的Redis方案。IBM和Docker宣布建立战略伙伴关系,提供基于Power的Docker优化版本。Power+PostgreSQL提供分布式事务处理数据库优化方案Power+HBase:大数据快速存储查询方案(磁盘KV数据库)磁盘KV型数据库,如(Hbase/Cassandra/Hypertable/Accumulo等),能够很好地实现对海量数据的实时读写访问,实时数据存储管理和实时简单查询。其目标是存储并处理大型的数据,是一个分布式的,多版本的,面向列的存储模型,存储的是松散型数据。--高可靠性--高效性--面向列--可伸缩IBMPower针对Hbase进行优化,提供更好地性能和安全性。目前已有多个基于Power的Hbase项目正在或已经交付。Power不仅能为开源Hbase提供更高运行性能,还能使用IBMSymphony软件对Hbase任务进行调度,进一步提高加载查询环节的性能表现。WhyPower?--Power硬件在多线程,内存通道和IO带宽方面有更好的性能,并有更高的可靠性--HBase在Powerlinux上有更好的性能适用场景:海量结构化数据的快速预置查询,海量非结构化数据的实时读写与存储。在某案例中,Power+Symphony+Hbase的组合,能够提升加载环节性能4倍以上,提升查询环节性能2倍以上。Power+文档型数据库:大数据实时查询分析方案MongoDB,最流行的开源NewSQL数据库•面向文档存储•完整的索引支持•模式自由,可自由更新数据结构•支持复制和故障恢复,易扩展主机主机\CPU\内存进程部署存储占比平均处理效率(条/秒)CPU使用情况(使用占比)内存使用情况(内存使用量)X864*X8624C,128GB3副本,共60个数据库(DB),启动16个查重进程共测试话单约26亿条,存储占用约360G3555340128GPowerLinux4*PowerLinux8C,128GB5271740128GPower针对MongoDB优化,可提供更好的性能和安全性。以下为某客户实地进行的测试,Power平台上的MongoDB可比x86提供5倍以上的处理性能。SequoiaDB—优秀的国产文档数据库产品•灵活动态的数据类型•并⾏执⾏行引擎•线性水平扩张•MPP–无单点故障•在压缩数据上执⾏行SQL•保持数据接近CPU/核以下为采用Power+SequoiaDB方案构建的某应用日志查询分析平台。明细日志源文件NAS存储模块SequoiaDB存储模块CRM应用服务器1CRM应用服务器2CRM应用服务器3CRM应用服务器4CRM应用服务器5…………CRM应用服务器N文件工具脚本日志传输实时访问模块日志查询/简单分析日志复杂分析Hadoop分析模块Web展现模块Power+流计算:大数据实时分析计算方案StreamStormSparkStreamingIBM成熟的商用流计算技术,广泛的案例验证开源流式计算框架,简单实用大规模流式数据处理的新贵,基于Spark通用计算框架Streaming适用场景:实时监控告警分析,实时营销分析触发,高速数据采集预处理,流式动态数据处理等。Power灵活支持商用和开源流计算方案,Power特性和流计算框架的结合,具有更好的性能和效费比。流式计算的原理是在内存里不间断地对流入的数据进行计算,通过多节点多核多线程并发已达到亚秒级快速处理大量数据的目的。因此,CPU的主频,并发多线程能力,cache大小,内存带宽和Java性能等方面都会直接影响到流式计算的性能表现。性能指标IBMPower8IntelE5/E7CPU主频3.7~4.3GHz1.7~2.8GHz超线程能力8个2个CPU片内缓存大小/每core8~12MBL3Cache2~2.5MBL3Cache硬件事务性内存支持不支持内存带宽230~410GB/s51~83GB/sL4Cache(内存缓存)支持,128MB/CPU不支持单机可靠性设计指标99.999%99.95%针对Streams的Java库优化有无IBM和x86针对流计算的性能指标对比Power+Redis:创新大数据缓存方案(内存KV数据库)LoadBalancer500GBCacheNode10GbUplinkPOWER8ServerFlashArrayw/upto40TBDifferentiatedNoSQL(POWER8+CAPIFlash)NewmemorytierforPOWER8server-Upto40TBforNoSQLbasedapplications-ClustersolutioninaboxInfrastructureAttributes-192threadsin2UServerdrawer-40TBofmemorybasedFlashper2UDrawer-SharedMemory&Cachefordynamictuning-EliminationofI/OandNetworkOverheadToday’sNoSQLinmemory(x86)InfrastructureRequirements-LargeDistributed(Scaleout)-LargeMemorypernode-NetworkingBandwidthNeeds-LoadBalancing基于Power8CAPI接口的闪存创新方案,实现Redis在内存和闪存间的自由切换,相对于全内存方案,提供更加灵活的性能成本配置,并具有更少的资源占用。WWW10GbUplinkWWWBackupNodes500GBCacheNode500GBCacheNode500GBCacheNode512GBCacheNode24:1Reductionininfrastruc
本文标题:POWER大数据解决方案_房树新33
链接地址:https://www.777doc.com/doc-24299 .html