您好,欢迎访问三七文档
当前位置:首页 > 机械/制造/汽车 > 综合/其它 > ETL工具对比参考文档
参考1:ETL厂商ReikingIBMinformationserver(datastage)informaticOnceDIbeeloadODI(oracledataintegrate基本架构支持运行平台windows/unix/Linuxwindows/unix/linuxwindows/unix/linuxwindowswindows/linuxwindows/linux数据访问模式支持绝大部分支持绝大部分支持绝大部分支持绝大部分支持绝大部分支持绝大部分支持有局限性,与oracle数据库耦合太深。数据抽取方式支持生成文件(落地)再导入;直接导入;消息协议直接导入;导入方式,数据导入支持批量加载(SQLloader方式)、insert模式、行删除模式其中insert模式是插入到临时表,然后更新,需要手工写update语句,配置比较复杂,行删除模式这种方式不考虑,性能肯定会非常差。批量加载模式,是对方工程师推荐的测试方案,其性能应该是最快的.以下测试是基于批量加载模式直接导入;数据导入目的库有两种加载方式normal和bulk,即普通插入和批量加载。批量加载需要先将索引drop掉,在加载完成后重新创建,但是这种方式在对付大数据量时很慢,例如下文测试hisdeliver1个月的数据抽取,286万记录,需要4分47秒,比普通插入要慢很多。下面的测试结果由informatic的工程师,其基于normal模式只支持落地方式直接导入直接导入也可以使用dblink(oracle-oracle),透明网关(sql-oracle))实时增量ETL支持递增字段实现,触发器模式,支持OracleCDCCDC,实现秒级别的增量CDC,实现秒级别的增量,另外付费购买触发器模式/递增字段实现触发器模式/递增字段实现触发器模式/递增字段实现/stream(cdc)性能单表hisdeliver抽取,记录数124810,耗时比较1分16秒17秒15秒3分42秒2分7秒19S单表hisdeliver抽取,记录数2859999,耗时比较22分12秒6分12秒2分58秒30分钟以上未测试3分49S采集sqlserver数据;采集表zygd(记录数:597872)测试报错41秒16秒未测试3分17秒19S流程中是否支持并行加载支持支持支持不支持,只能手工同时发起多个流程来实现并行加载支持支持(流程中串行异步模式)并行加载性能client730279行5分钟1分14秒2分02秒14分33秒无法对并行流程进行更新的监控,只有整体运行完成时间,7分12秒2分13秒clientinfo739278行7分钟2分18秒1分50秒14分07秒1分29秒stockholder108378911分钟2分59秒3分01秒14分50秒3分23秒hisdeliver124810行未加载48秒20秒4分31秒2分44秒异常处理支持邮件通知支持邮件通知支持邮件通知不支持支持邮件通知支持邮件通知ETL管理权限管理支持支持支持支持支持ETL工作流支持顺序、并行工作流、支持时间、事件触发支持顺序、并行工作流、支持时间、文件到达触发支持顺序、并行工作流、支持时间、事件、文件到达触发支持顺序工作流、支持时间触发支持顺序、并行工作流、支持时间。在工作流支持循环支持顺序、并行工作流、支持时间流程触发定时、事件只能定时(支持到天级别),比较弱定时(支持到分钟级别)、事件触发定时、事件触发定时、事件触发运行监控较弱较强较强较弱较弱有专门的WEB工具来展示ETL日志与报告详细,但是出错信息需要查bad数据文件很详细,能够看到所有的操作很详细,能够看到所有的操作不是很详细比较详细比较详细部署强,采用SOA架构,可以任意发布服务较强较强可以任意发布可以任意发布,按机器进行收费可以任意发布,按CPU进行收费流程调度可以按日定时调度;可以支持到秒可以按日定时调度;无法支持到秒可以按日定时调度;可以支持到秒可以按日定时可以按日定时调度;可以可以按日定时调度;可以支持到秒级别的轮询级别的轮询调度(实现实时采集);无法支持事件触发(例如清算完成)调度,必须编写调度程序,通过API调用流程;支持变量模式,支持变量从某个表读取然后替换相应的变量,必须通过外部shell调用替换级别的轮询调度(实现实时采集);无法支持事件触发(例如清算完成)调度,必须编写调度程序,通过API调用流程;支持变量模式,无法支持变量从某个表读取然后替换相应的变量,必须通过外部shell调用替换级别的轮询调度(实现实时采集);无法支持事件触发(例如清算完成)调度,必须编写调度程序,通过API调用流程;支持变量模式,支持变量从某个表读取然后替换相应的变量,必须通过外部shell调用替换调度;可以支持到秒级别的轮询调度(实现实时采集);无法支持事件触发(例如清算完成)调度,必须编写调度程序,通过API调用流程支持到秒级别的轮询调度(实现实时采集);支持事件触发(例如清算完成)调度,必须编写调度程序,通过API调用流程调度(实现实时采集);支持事件触发(例如清算完成)调度,必须编写调度程序,通过API调用流程;支持变量模式,支持变量从某个表读取然后替换相应的变量,必须通过外部shell调用替换其他印象(可操作性,易用性,界面友好性)在都采用批量加载时,大量数据时的性能hisdeliver2859999行6分12秒5分27秒hisdeliver4350338行10分53秒6分51秒(5分钟导数据,1分51秒建索引hisdeliver12222466行29分56秒(25分钟导数据,4分56秒)18分4秒(13分24秒导数据,4分40秒建索引)hisoperationtotal57747239行27分21秒(20分2秒导数据;7分19秒建索引)26分56秒(17分10秒导数据,9分46秒导数据)在都采用批量hisdeliver8276997行19分40秒bulk:10分23秒normal:10分31秒hisoperationtotal17896802行5分24秒4分18秒加载时,大量数据时的性能(不带索引)在都采用批量加载时,大量数据时的性能(不带索引)hisdeliver在上述里已有8276997行数据后,再次追加3945469行8分47秒6分钟在都采用批量加载时,大量hisdeliver加载3945469行7分52秒6分10秒0数据时的性能(不带索引)参考2:对比项InformaticaPowerCenterIBMDatastage产品完整性对比数据整合部分:PowerCenter,是业界公认领导者数据质量管理:DataQuality,成熟稳定技术,在中国有大规模应用的成功案例。实时数据捕获:PowerExchange,业界领先实时采集技术,支持广泛数据源的CDC和Realtime,与PowerCenter无缝集成。元数据管理:MetadataManager,是业界领先的企业级元数据管理平台,可做到字段级的元数据各项分析,有广泛的元数据采集接口,图形化无需编程,并可自动维护变更。数据整合部分:Datastage,属于业界一类产品数据质量管理:QualityStage,收购的技术,不是主要其主要产品组成实时数据捕获:MQ和DataMirror的技术,技术复杂,与DataStage是不同风格产品,产品的耦合度极差。元数据管理:MetaStage,几乎免费的产品,应用性极差,并不能管理企业级的元数据。而新推出的产品与旧有产品线耦合度差,并未经过市场的考验。开发人员的使用效率Informatica是全图形化的开发模式,不需要编码,工具易使用,界面友好、直观。专业的三天培训,可使开发人员快速入门,进行开发设计。开发人员只要懂得数据库知识,即可。Informatica产品是以元数据为核心的,其开发过程中,所有的元数据,包括规则和过程,均是可复用,共享的。经过简单配置即可支持大数据量的处理。Informatica是完全基于引擎级别的,所有功能模块化,扩展性强,维护成本低。虽然也是图形化的界面,但复杂的转换过程,里面嵌入了很多类Basic脚本的成份。要求开发人员,有编程语言基础。在处理大数据量,必须使用Datastage企业版。但如果客户原先使用的Datastage标准版,其作业的版本移植问题很大。这两个版本的工作平台、机制完全不同。作业移植,大概要有70%左右需要重新开发定义。Datastage是基于脚本级的,底层基于PICKBASIC和COBOL(MainFrame上)内核开发,要求不同的平台需要不同的系统环境变量配置。应用需求的改变和拓展的支持Informatica是以元数据为核心的平台,现在完全支持SOA的思想,其最大特点就是完全支持松耦合.可拆分成Service进行调用.这样需求变化,需求发生变化,需调整相应的作业。如果是复杂需求,改动已有的脚本,其维护成本相对比较高。其需改动的部分,其影响会很小。开发转换过程,均为共享的、可复用的。元数据发生变化,可通过ViewDependencies功能,生成所有相关对象的报表,方便跟踪、校验,以应对需求的变化。应用需求变化,调整作业后,直接可以运行,不需要重新编译。作业移植等,也不需要重新编译。与平台和数据库无关。支持跨操作系统的集群技术,可方便的进行平台级的扩展。每次作业变化调整,均需重新编译,才可执行。Datastage企业版与Datastage标准版,其作业的版本移植问题很大。这两个版本的工作平台、机制完全不同。作业移植,大概要有70%左右需要重新开发定义。一旦新的需求,需要企业版,其移植和再次开发,工作量要增加很多。也因为两个版本的不兼容和脚本编译的开发模式,使之产品面对变化和扩展上,均有一定的限制。项目实施的支持Informatica结合15多年的数据集成领域的经验,总结出一套针对Informatica产品实施数据仓库、数据管理等项目的最佳方法论Velocity2008。该成熟的开发方法论,是指导客户实现快速、高质量项目实施的最佳武器。现在全国拥有众多的名高级技术专家与顾问,与国内如大唐,联创、神州数码、东软,中软等多家知名集成商成立战略合作伙伴,Informatica产品开发人员全国上千人规模。Informatica支持服务中心是有非常熟练的技术支持工程师充当的,这些工程师具备你需要的、成功的专家知识。在中国有专门的售后服务工程师。无专业/成熟,基于产品的项目最佳开发方法论很难找到熟悉类Basic开发语言的Datastage开发工程师IBM是以服务为主的公司,如果客户采用了其DataStage产品,将要支付大笔的IBM咨询服务费。产品安装完全图形化安装,无需额外安装平台软件,且不需修改系统内核参数需耗用时间安装和准备C编译环境,不同平台软件安装的C编译器也不尽相同需修改系统内核参数,对其他应用影响较大,有潜在的危险。产品升级平滑升级,完全图形化,不需修改已设计完作业。主要是升级资料库,工作量很小。需重新编译已有作业大版本之间以及跨平台的升级,很多作业需重新编写/编译代码,重复操作和维护工作量大。产品移植PowerCenter支持逻辑和物理设计分离的开发模式,有一个Mapping(逻辑的)和Session(物理的或者可运行)的概念,Mapping是逻辑上的ETL如果数据源,目标类型变化了,得修改以前所有的Job。必须在新平台上编译所有作业,此规则,而Session才是真正可以实例化运行的任务。可以跨平台、跨不同数据库进行作业的单个、整体移植。不需改变作业设计等,原有的任务可以直接在新环境下运行,并且只要更改Session的数据库联接串,则使用原有的Session任务访问不同的数据库类型数据,大大简化项目移植的工作。移植的工作量较大。元数据开放性元数据资料库可基于所有主流系统平台的关系型数据库(Oracle、DB2、SybaseASE,MicrosoftSQLServer)用户可通过Informatica提供的
本文标题:ETL工具对比参考文档
链接地址:https://www.777doc.com/doc-4078761 .html