您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 基于Hadoop的企业数据仓库建设与创新刘汪根.
基于Hadoop的企业数据仓库建设与创新2016/6/231刘汪根大数据平台研发总监星环信息科技(上海)有限公司wayne.liu@transwarp.io企业级数据仓库架构OLAPAnalytics数据集市抽取Reporting转换清洗加载ETL数据仓库数据源数据服务CCGGITITCCGIGTCITGCITCGGITITCCGGIITTCCGGITICTGCITGCIGTICTCGGIITTCCGGITITCCGIGTCITGCITCGGITITCCGGIITTCCGGITCITGCIBTIGCIGTICTCGG2016/6/232单机数据库,单表上亿记录已经是存储、查询以及分析的最大上限2.多维Cube数据膨胀块,单机无法存储,集中式存储昂贵3.查询性能下降,进而导致稳定性下降4.无法适应新业务的要求,如移动应用或者时效性要求SSIS+T-SQLSQLServerDWSQLServerSSASOLAPAnalyticsReportingSSRSCCGGITITC问CG题IG:TCITGCITCGGITITCCGGIITTCCGGITICTGCITGCIGTICTCGGIITTCCGGITITCCGIGTCITGCITCGGITITCCGGIITTCCGGITCITGCITGCIGTICTCGG2016/6/233,IITTCC数GGITI仓TCCGI如GTCITG何CITCG构GITITCC建GGIIT呢TCCG?GITCITGCITGCIGTICTCGG2016/6/234优点•完善的SQL支持,事务支持,提供OLAP分析功能•MPP执行引擎稳定,可以处理100TB以上的数据•管理工具比较完善缺点•单节点百万$,并且在大数据规模可扩展性不足•无法存储非结构化数据,或者实时数据•无法有效支持数据挖掘类需求CCGGIDTITCCGIGTCITGCITCGGITITCCGGIITTCCGGITICTGCITGCIGTICTCGGIITTCCGGITITCCGIGTCITGCITCGGITITCCGGIITTCCGGITCITGCITGCIGTICTCGG2016/6/235混合结构2016/6/236•混合架构–结构化数据入MPP,非结构化+实时数据数据入Hadoop–核心BI报表由MPP生成,低优先级任务放在Hadoop上–OLAP服务由MPP提供,MPP上数据每天同步到Hadoop上–为了保证SLA,需要有个严格的规则控制对MPP的资源使用•优点–Hadoop作为补充,能够满足新型业务的需求,并且重用已经构建的传统MPP数仓系统•缺点–系统成本比较高,Teradata非常昂贵–应用/开发人员需要详细的管理各个数据表的存储和计算方式,一个业务需要适配两套模型–没有一个统一的引擎,应用使用跨系统的数据需要数据先同步–实时业务开发门槛比较高,丢数据情况很常见,无HA–开源Hadoop不支持事务,做全表级别的数据同步非常麻烦–Hadoop对SQL支持比较弱,通常要MapReduce、Spark以及脚本语言混合编程–Hadoop对数据的管理和开发支持很弱–需要一个比较大的运维团队,提供架构支撑和数据开发CCGGITITCCGIGTC–ITGC可IT以CG满GI足TI离TCC线批GG处IITT理CC与G在GI线TICOTLAGCPI分TG析C的IGT需ICT求C;GG两IIT套TCC系统GG互ITI相TC备CG份I,GTC提IT升GC数IT据CG的GI安TIT全CC性GGIITTCCGGITCITGCITGCIGTICTCGGHadoop需要解决的关键问题稳定性、可靠性以及计算性能非常重要,当前Hadoop计算能力和稳定性都存在问题,开发和运维成本也很高SparkMllib技术门槛高,只能由数据科学家使用,普通的业务分析人员无法有效使用这些技术数仓能力与构建成本数仓批处理和OLAP数据挖掘能力数据一致性与数据同步支持实时、非结构化数据处理能力ACDEBETL等批处理业务是数仓的资源消耗大户,OLAP是保证BI性能的关键,Hadoop在这方面能力不足数仓平台需要能够处理实时数据和非结构化数据的能力,开发和运维实时类应用需要简单可靠跨系统间数据同步和一致性无法有效保证ETL的一致性对业务非常关键CGITCGITCGITCGIT2016/6/237星环科技团队的成果1.支持最全SQL,唯一支持PL/SQL3.支持分布式事务处理4.业界唯一分布式流式SQL5.丰富的数据挖掘和机器学习算法6.运维无忧•简单易用•7*24小时不间断•降低流应用开发门槛,提高流应用开发效率•针对性的优化让StreamSQL比编程开发流应用性能更高•帮助用户零成本将传统业务逻辑变成流应用•保证事务处理的ACID•BEGINTRANSACTION/COMMIT/ROLLBACK语法进行事务处理•两阶段封锁协议可保证事务的完全可序列化•多版本(快照)隔离可以保证只读事务的2.性能超群率先进入复杂数据分析的百TB时代2016/6/239•支持99%的SQL2003语法•Hadoop业界唯一支持OraclePL/SQL•Hadoop业界唯一支持DB2SQL/PL•帮助用户零成本迁移传统应用CCG•GI新TITC应C用G的IGT开CI发TG成CIT本CG很低GITITCCGGIITTCCGGITICTGCITGCIGTICTCGGIITTCCGGITITCCGIGTCITGCITCGG高IT并ITC发C性GGIITTCCGGITCITGCITGCIGTICTCGGInceptorPL/SQLCompiler架构SQLParserSQLStatementsAbstractSyntaxTreeConstantConstantFoldingConFsotaldnintgFoldingRDDDAGSQLNormalizerLogicalOptimizerCSEbytecodegenerationcolumnpruneroperatorprunerpartitionprunerpredicatepushdownPL/SQLASToptimizerSQL2003JoinoptimizationsCBOOptimizerPL/SQLControlfunctiondeadcoderedundantinliningeliminationeliminationCSEloopinvariantsCFGOptimizerParallelOptimizercursorparallelizationTableStatisticsDAGOptimizershufflereducerPhysicalPlanDAGSchedulersparktasksparktasksparktaskFirstPL/SQLCompileronHadoop;98%OraclePL/SQLCompatibility.CGITCAnGaIlyTzCerGITCFlGowITGCrapGhITCGITCGITCGITCGITCGITCGI2016/6/2310’sPerformanceTPC-DSExecutionTimefor99Queries(inminutes)可扩展的分布式计算技术Testenvironment:•29workernodes•2CPUs,12Cores,E5-2620v2•100GBmemory•Network:2X1Gbps•Disks:12X3TBORCFilesDataNodeORCFilesDataNodeORCFilesDataNodeORCFilesDataNodemetastore1500InceptormasterExecutorExecutorExecutorExecutorTransactionManagerZKCluster星环SQLonHadoop已经能够高效处理100TB数据的复杂分析2016/6/2311’sPhysicalDeploymentDiagram单机计算并行计算分布数据、计算均分布化MPI消息通讯模式Map/Reduce计算模式CGITCGITCGITCGITCGITCGITCGITCGITCGITCGITCGITCGITCGITCGITCGITCCGITCGITCGITCGITCGITCGITCGITCGITCGITCGITCGITCGITCGITCGITCGITCGG支持分布式事务处理采用多版本两阶段封锁协议实现可串行化快照隔离(SerializableSnapshotIsolation)Transaction1begintransactionselectmax(price)fromorderswhereage20readvalueintolocalvariablemaxorderupdateorderssetprice=maxorder-1,…commitTransaction2begintransaction…updateorderssetprice=200whereid=“007”commit优点:1.两阶段封锁协议可保证事务的完全可序列化;2.多版本(快照)隔离可以保证只读事务的高并发性3.分布式计算保证超高的吞吐率80000060000040000020000002016/6/2312
本文标题:基于Hadoop的企业数据仓库建设与创新刘汪根.
链接地址:https://www.777doc.com/doc-2534065 .html