您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 交通运输 > 10-0708-杨艳明-大数据一体机解决方案及案例
一体机解决方案---企业融合数据平台1什么是大数据?Volume-巨量Variety-多样性Value-价值密度数据量巨大全球在2010年正式进入ZB时代IDC预计到2020年,全球将总共拥有40ZB的数据量结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求沙里淘金,价值密度低一部数小时的视频,可能有用的数据仅仅只有一两秒。如何迅速“提纯”是大数据亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命Velocity-速度------专业咨询公司IDC对大数据的定义-4V2•采用传统IT架构存储和处理海量数据成本居高不下•容量和性能按需扩展困难,IT基础建设难以满足增长规划•大量孤立的业务系统,数据整合共享难•业务种类繁多,数据结构各不相同,统一管理难存:数据增长快管:数据多样性•碰撞比对涉及多张表,关联分析效率低•海量数据百亿记录,检索分析慢查:数据挖掘犹如沙里淘金•多部门、多业务诉求不一,数据分析模型难固化•实战中对信息的及时性、全面性、准确性要求高用:实战要求高大数据变革下企业信息化面临的挑战3以结构化为主结构化和非结构化相结合以非结构化为补充典型交易型、分析型数据库、ERP/CRM、商务智能、决策分析系统等。通过对数据进行加工,智能搜索、关联查询、碰撞比对等手段,开展数据挖掘和分析(如经营分析、竞争营销、决策支持分析等)在结构化数据之外,还要附带及整合分析文本、图片、语音、视频等非结构化数据,开展图像处理、证据归档、历史数据保存及应用等业务重点分析网上交易记录、聊天记录、论坛发帖、微博评论、email等非结构化数据,开展舆情预测、社会化营销等业务企业大数据需求分析——三类场景、四大需求TOP4需求应用服务提供面向公安实战的大数据服务检索分析实现海量数据的快速查询数据管理管理多样复杂的海量数据基础架构构建高扩展低成本的大规模存储和计算平台4泛结构化数据处理特征提取数据获取大规模存储批量计算/NoSQL数据库无法存储异构数据及复杂计算引入并行批量处理/大规模存储/NoSQL技术统计报表多维分析仪表盘数据探索/挖掘数据挖掘集群数据库数据库(仓库)技术应对需求挑战应对业务固定,数据量小且增长缓慢传统集群数据仓库数据库云数据挖掘智能集群数据仓库无法适应大规模数据量使用MPPShareNothing数据仓库,将数据与计算进行分布化高级语言/优化数据探索的体验(秒级响应)与习惯(SQL查询)不变需要对泛结构化数据处理添加SQL语法及查询优化技术ETL聚合过滤关联规则匹配在线数据处理(流处理)实时响应要求“即来即处理”,原始数据体量巨大,无法先存储再分析需要使用“分析后丢弃”的模式数据安全生命周期管理数据管控对数据生命周期管理、数据可信度、以及数据隐私安全等管控特性有着更强的要求大体量下的数据管控能力应用系统库1应用系统库2应用系统库3应用系统库n5新兴大数据技术1:大规模并行数据库处理架构在数据量急剧膨胀的背景下,数据库处理要求超出了单机或SMP架构能力范围计算分布,存储集中DBServ共享磁盘DBServDBServDBServ网络SAN/FC计算集中,存储集中DBServ磁盘计算分布,存储分布DBServDBServDBServDBServ高速通信网络磁盘磁盘磁盘磁盘传统单机数据库SMP架构数据库分布式数据库云平台分布式数据库云架构,将任务均衡分解至多个节点同时运行,有效解决大规模数据作业计算、缓存、IO等瓶颈带来的性能问题分布式并行存储池6新兴大数据技术2:Hadoop分布式批处理框架Hadoop是用于大数据分析的开源框架,它包括一个分布式文件系统(HDFS)、一个并行处理框架(MapReduce)和多种不同的组件,支持数据获取、工作流协调、任务管理以及集群监控等功能。Hadoop目前在大数据分析平台架构中的最典型角色是海量非结构化数据分析平台:1.日志、点击流分析2.舆情、网监、技侦3.Web数据分析和文本挖掘4.视频、音频数据分析5.XML数据分析经Hadoop分析后的数据,再导入到结构化数据库中供后续使用。7对数据的认知和数据模型的演进8传统框架X86服务器/小型机商用关系型数据库固态阵列(数据库加速)传统阵列1.小规模结构化数据2.海量结构化数据3.海量非结构化数据4.复杂数据结构分布式数据库架构X86服务器Scale-out扩展架构分布式并行存储与计算融合优化商用MPP-DB企业级hadoop框架X86服务器Hadoop平台(ETL、MR、NoSQL、流处理)优化分布式文件系统Scale-outNAS或云存储企业级Hadoop+并行数据库技架构框架X86服务器数据按属性分层存储与计算处理面向数据特性的优化价值提炼、优化模型。企业大数据方案技术路线选择关系型数据库、分布式并行数据库、NoSQL不是互相取代,而是互相补充取长补短9企业海量数据处理时性能瓶颈在哪里?原始数据OLAP联机分析处理读瓶颈写瓶颈内存限制读写瓶颈时延瓶颈JoinGroupAvg/Sum结果展现数据分组产生大量临时数据表合并需要读取大量数据计算读取并生成大量数据网络交换机光纤存储交换机传统存储阵列小型机小型机分层的传统架构、多处收敛主要的瓶颈是数据的存储及网络I/O!10I/O的DBMS层面优化策略尽量减少返回的数据量:传统的查询优化,基于成本的查询优化,基于规则的查询优化尽量减少索引访问或者采用一些特殊的索引策略:Block,PageSize,Hash预先计算的结果:物化视图、OLAPCubes按顺序返回数据采用列存储的方式将数据放在内存中:数据缓冲,分批读入内存I/O的硬件层面优化策略采用大量的内存并行磁盘访问宽带网络采用MPP架构专用一体机配置:Appliance硬件定制:计算:定制化计算架构、定制化CPU/芯片存储:分布式存储、专有存储系统网络:采用Infiniband,10-GigabitEthernet,专有BYNET等采用大量手段对数据I/O进行优化---所谓的性能的提升,通常意味着采用手段降低I/O、消除瓶颈11基于无阻塞交换解决数据流动性问题网络交换机光纤存储交换机传统存储阵列小型机小型机传统集成架构、多处收敛VS.计算存储存储计算计算计算存储存储参考互联网分布式云计算架构基于无阻塞交换计算存储融合12创新分布式并行存储架构带来端到端的性能提升小机/X86服务器+外置SANServer1Server2Server3DBDBDBDBDBDBCacheHDDHDDHDDSASSANController10GE/FC融合基础设施的分布式存储架构56Gb/sInfiniBandDBDBDBServer1DBDBDBServer2DBDBDBServer3PCI-EStorageServer1PCI-EStorageServer2PCI-EStorageServer3CPURAMCPURAMCPURAMFSControllerFSControllerFSControllerFSControllerFSControllerFSControllerCPURAMCPURAMCPURAMCacheCacheCache123单柜最大I/O吞吐高达120GB每秒单柜最大IOPS高达240万13架构突破+深度优化→解决数据(仓)库应用性能瓶颈企业级数据(仓)库面临巨大挑战数据量暴增!复杂查询狂多!实时要求特高!专用设备巨贵!打破性能瓶颈分布式存储抹去了机头瓶颈,提升存储带宽,提高随机读写能力InfiniBand交换提升计算与存储之间IO吞吐能力到56GPCIESSD卡的使用加速了数据读写IOPS能力融合数据(仓)库云加速平台14数据库加速融合基础设施系统架构和能力建议一体机分布式并行存储系统存储节点PCI-eSSD存储节点PCI-eSSD存储节点PCI-eSSD存储节点PCI-eSSD计算节点CPUCPU计算节点CPUCPU计算节点CPUCPU56Gb/sFDRInfiniBand分布式并行计算集群•开放性架构标准化组件、灵活选择优化设计、极佳性价比•高性能创新分布式并行存储,突破SAN存储瓶颈10XIO带宽3-5XIOPS性能•高可靠性多节点数据镜像冗余分布快速数据重建(30minvs.12hrsfor1TB)•高可扩展行Upto2000nodes先行容量及性能扩展15传统SAN存储分布式并行存储分布式并行存储技术原理分布式并行存储特性:先进分布式并行存储架构面向DB优化,消除I/O瓶颈与数据热点高可靠性数据冗余:Raid10、3份拷贝SmartCache(R/W,分布式内存cache)支持PCI-eSSD存储,突破磁盘瓶颈动态平滑控制、自动均衡故障自动检测与自动数据重建与恢复存储快照、存储瘦分配LUN并行存储池16一体机要求:开放、易管理、易扩展、灵活配置提供硬件基础设施和分布式存储软件,支持主流的数据仓库软件无需外置高端存储主数据仓库数据集市数据集市报表自助查询FusionInsightHadoop17一体机要求:开放高效的平台,兼容各主流商用数据库OracleDatabaseSybaseIQSQLServerIBMDB2GreenplumMySQLFusionStorageConvergedNetworkPCIe-SSD基于分布式并行存储,PCIe-SSD以及InfiniBand融合网络,提供开放高性能的基础架构,支撑各主流数据库HANA18项目启动多厂商采购分批到货系统集成应用部署综合调试平台安装业务上线多厂商安装调试1-3周4-8周1周1周1周1周1周10-18周最快1周到货+30分钟安装调试方案设计1-3周预集成单一厂商预验证带板运输,一次到位缩短系统集成时间避免人为错误基于最佳实践厂商实景验证加速方案设计简化采购流程避免等货周期提升售后体验一体机要求:预集成、预验证,实施周期从季度缩短周19一体机要求:简化、统一的系统管理硬件集中管理:服务器,IP交换机和IB交换机集中的告警和实时监控管理多套分布式并行存储管理员用户SSO单点登录虚拟化管理Portal服务器管理Portal网络管理Portal存储管理Portal自助Portal管理员Portal统一的监控和告警统一管理入口统一认证授权
本文标题:10-0708-杨艳明-大数据一体机解决方案及案例
链接地址:https://www.777doc.com/doc-6285603 .html