您好,欢迎访问三七文档
1Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.利用OracleBigDataConnectors将Hadoop与Oracle集成罗海雄甲骨文公司资深技术顾问2Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.以下内容旨在概述产品的总体发展方向。该内容仅供参考,不可纳入任何合同。该内容不构成提供任何材料、代码或功能的承诺,并且不应该作为制定购买决策的依据。所描述的有关Oracle产品的任何特性或功能的开发、发布和时间安排均由Oracle自行决定。3Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.Oracle大数据连接器•OracleHadoop装载器•OracleHDFS直接连接器•OracleDataIntegratorHadoop应用适配器•OracleRHadoop连接器4Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.软硬一体优化集成的Oracle大数据综合解决方案OracleBigDataApplianceOracleExadataInfiniBand捕获组织分析InfiniBandOracleExalytics决策5Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleHadoop装载器•一个用于装载数据到Oracle数据库的最优化的Map/Reduce工具•在Hadoop上预先完成分区、排序,数据转换成Oracle可读格式,再进行装载–可选择在线或者离线装载的不同选项6Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleHadoop装载器:示意图SHUFFLE/SORTSHUFFLE/SORTMAPMAPMAPMAPSHUFFLE/SORTREDUCEREDUCESHUFFLE/SORTSHUFFLE/SORTREDUCEREDUCEREDUCE输入2输入1MAPMAPMAPMAPMAPREDUCEREDUCEREDUCEMAPMAPMAPMAPMAPMAPREDUCEREDUCEMAPMAPMAPMAPMAPREDUCEREDUCEREDUCEORACLEHadoop装载器数据库7Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleHadoop装载器:在线装载SHUFFLE/SORTSHUFFLE/SORTREDUCEREDUCEREDUCEMAPMAPMAPMAPMAPMAPREDUCEREDUCEORACLEHadoop装载器3.通过JDBC/OCI驱动,从reducer节点连接到数据库,进行并行装载1.从数据库中读取目标表的表定义2.读取数据,并进行分区,排序,格式转换8Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleHadoop装载器:离线装载SHUFFLE/SORTSHUFFLE/SORTREDUCEREDUCEREDUCEMAPMAPMAPMAPMAPMAPREDUCEREDUCE1.读取目标表的表定义2.读取数据,并进行分区,排序,格式转换3.在reducer节点生成OracleDataPump格式文件5.通过外部表,在数据库空闲时段进行并行的数据装载DATADATADATADATADATA4.将生成的文件拷贝到数据库服务器4.1通过OracleHDFS直接连接器访问9Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleHadoop装载器:优势•将数据库服务器的压力转移到Hadoop集群:–把数据转换成数据库格式–将数据分配到特定分区–根据主键进行排序•生成二进制的datapump格式文件•根据partition对reducer进行负载均衡相比起SQOOP,OraOOP:10Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleHadoop装载器:输入数据格式•含分隔符的文本文件•Hive格式的表–Hive内部表或者外部表–Hivenative表或者非native表•自定义格式11Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleHadoop装载器:总结•主要优势-多数操作在Hadoop集群中完成,对数据库压力很小-提供在线/离线装载选项•OracleHadoop装载器不仅仅用于Oracle大数据机12Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleHDFS直接连接器•以外部表形式直接访问HDFS上的数据文件•无需转移文件13Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleHDFS直接连接器:示意图SHUFFLE/SORTSHUFFLE/SORTREDUCEREDUCEREDUCEMAPMAPMAPMAPMAPMAPREDUCEREDUCE1.创建外部表DATADATADATADATADATAHDFSExternalTableSQLQUERYODCH2.生成location文件,指向HDFS文件/文件集3.访问外部表14Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleHDFS直接连接器:优势•直接访问HDFS上的文件(不需要FUSE插件)–创建指向HDFS的外部表–在数据库中直接通过SQL访问HDFS数据–可以将数据通过Insert/Select或者CreateAsSelect装载到数据库•快速的数据访问:并行、优化、自动负载均衡•数据文件可以是:–含分隔符的文本文件–OracleHadoop装载器产生的Datapump文件15Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleHDFS直接连接器:总结•主要优势-直接访问,不需要额外步骤-支持并行,负载均衡等特性•OracleHDFS直接连接器不止用于Oracle大数据机16Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleDataIntegrator简介•OracleDataIntegrator是一个数据提取、加载、转换工具(E-LT)•通过可插入的知识模块方式支持多种数据源和目标数据仓库计划系统在线数据库应用程序源传统数据源高效的图形化设计工具支持不同数据源和目标直接在原有机器上进行处理17Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleDataIntegratorHadoop应用适配器•OracleDataIntegratorHadoop应用适配器主要功能–将本地或者HDFS文件加载到Hive中–在Hive中进行数据转化和校验–将处理过后的数据导入Oracle数据库中知识模块--IKMFiletoHive知识模块--IKMHiveControlAppend知识模块--IKMHiveTransform知识模块--RKMHive知识模块--IKMFile/HivetoOracle(OLH)18Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleDataIntegratorHadoop适配器:示意图SHUFFLE/SORTSHUFFLE/SORTREDUCEREDUCEREDUCEMAPMAPMAPMAPMAPMAPREDUCEREDUCE2.将本地文件或者HDFS文件加载到Hive中DATADATADATADATADATAHDFSORACLEDATABASEODCH3.调用Hive脚本,进行数据转化以及校验4.将处理过的数据装载到Oracle数据库中1.创建数据模型,包括数据源文件,Hive表,Oracle表等19Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleDataIntegratorHadoop适配器:优势•提高开发、集成的效率–使用统一的ODI程序界面–使用与SQL类似的HiveQL,不需编写HadoopMapReduce脚本–自动协调和调度Hadoop的任务•高性能的数据整合–大部分工作在Hadoop集群中进行,充分利用集群机器资源–高性能的Hive知识模块–调用高性能的OracleHadoop装载器20Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleDataIntegratorHadoop适配器:总结•主要优势-集成里现有ODI产品里-充分利用Hadoop集群资源进行数据转换-无需编写复杂的MapReduce脚本21Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleRHadoop连接器(ORCH)通过在R中安装ORCH包,可以实现•在R中直接访问Hadoop/HDFS的文件•在R中直接利用Hadoop集群运行R格式的MapReduce脚本22Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleRHadoop连接器:示意图客户端R引擎ORHCHadoop软件JavaVM服务器(如:大数据机)R引擎ORHC驱动包JavaVM数据库服务器(如:Exadata)R引擎ORE库Oracle数据库ORE客户端包Hadoop集群任务节点…任务节点JobTrackerMapReduce节点HDFS节点数据节点数据节点…目录节点ORE包ORE客户端包ORHCORHC在Hadoop集群中运行MapReduce任务访问Oracle数据库访问HDFS文件测试时在本地运行MapReduce任务23Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleRHadoop连接器:优势•R可以直接访问HDFS上的文件–支持超大数据量–R可以获得更好的文件存取性能–数据可以根据需要在以下地方随意存取和移动•Oracle数据库•HDFS文件•本地文件•在R中直接利用Hadoop集群运行R格式的MapReduce脚本–R程序员以R的形式写MapReduce脚本不需要学习Java的MapReduce写法。–R程序员不需要了解Hadoop运行机制–充分利用Hadoop集群的资源进行并行运算–开发测试过程中可以直接使用本地Hadoop而不需要Hadoop集群24Copyright©2011,Oracleand/oritsaffiliates.Allrightsreserved.OracleRHadoop连接器:总结•主要优势-为R提供更高性能的文件系统-为R提供高度可扩展的计算能力-数据可以根据需要随意存取和移动-R程序员不需要深入学习额外的Hadoop技术25Copyright©2011,Oraclean
本文标题:3-oracle-big-data-connectors-hadoop-1637766-zhs
链接地址:https://www.777doc.com/doc-5351538 .html