您好,欢迎访问三七文档
当前位置:首页 > 机械/制造/汽车 > 综合/其它 > ETL抽取工具Informatica
VANDACHINAVASETL抽取工具Informatica介绍VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITEDInformatica产品介绍•PowerCenter:InformaticaPowerCenter是世界级的企业数据集成平台,它在ETL领域中无论是执行能力还是战略远见方面都是佼佼者,是Informatica的核心产品。VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITEDInformatica公司其他产品•PowerAnalyzer:BI前端工具,用于数据展现,内置了170多种分析报表,用于元数据的浏览和分析•PowerExchange:适用于连接主机数据,实时数据和CDC数据处理•SuperGlue:元数据管理工具,管理系统所有的元数据,包括BI、OLAP、DataModel、ETL工具产生的元数据。VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED主流的ETL厂商和产品•专业ETL厂商和产品包括Ascential公司的Datastage、Informatica公司的Powercenter、NCRTeradata公司的ETLAutomationVANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITEDInformatica产品体系结构元数据管理工具元数据管理工具用于连接主机数据/AS400、Oracle、DB2、SQL数据源的CDC、RealTime用于连接主机数据/AS400、Oracle、DB2、SQL数据源的CDC、RealTime用于连接应用数据,如ERP(SAP)、EAI(MQ)用于连接应用数据,如ERP(SAP)、EAI(MQ)核心产品:数据集成平台核心产品:数据集成平台元数据展现工具元数据展现工具VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED名词解释•ETL:Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程。•DW:DataWarehousing,根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”。•Metadata:元数据。描述数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED解析什么是ETL?•Extract:通过接口提取源数据,例如:ODBC、专用数据库接口和平面文件提取器。参照元数据来决定提取何处的数据和怎样提取。•Transform:开发者将提取的数据,按照业务需要转换为目标数据结构,并实现汇总。•Load:加载经转换和汇总的数据到目标数据仓库中,可实现SQL或批量加载VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED什么是数据仓库?•数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问,的各种技术和模块的总称VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED数据仓库体系结构VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED数据转换指的是什么?•数据转换都包括,删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED产品功能•PowerCenter:按照一定格式,整合、转换、汇总、传输数据。•InformaticaPowerCenter提供专注于最主要的、最复杂的数据集成项目必须的工具和数据服务的平台,是业界领先的、具有适应性的软件,用来访问、集成和传递数据。经过精心设计的PowerCenter能够利用有效的成本去平衡数据,从而得到一个统一的扩展的企业视图。使用InformaticaPowerCenter,企业能够通过“一次建立,任意部署”的方法从事多个不同的集成项目,允许更多的时间和资源花费在企业的业务上,而不是企业的业务整合上。VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITEDPowerCenter体系结构VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED1个或多个(Repository)•PowerCenter数据整合引擎是基于元数据驱动的,提供了基于元数据驱动的元数据知识库(Repository),该元数据知识库可以在主流的关系型数据库中部署。该元数据库中存储所有的ETL元数据,包括:源、目标表的物理和逻辑元数据,ETL转换规则,知识库用户权限,ETL任务运行历史信息等元数据。VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED2个Server•InformaticaRepositoryServer:资料库Server,管理ETL过程中产生的元数据用来管理所有对资料库中元数据的请求和操作。•InformaticaServer:实际的ETL引擎VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED5个Client•PowerCenterDesigner:设计开发环境,定义源及目标数据结构;设计转换规则,生成ETL映射•WorkflowManager:合理地实现复杂的ETL工作流,基于时间、事件的作业调度•WorkflowMonitor:监控Workflow和Session运行情况,生成日志和报告•RepositoryManager:资料库管理,包括安全性管理等,元数据维护和安全操作,如:元数据查找,用户、组、权限管理等。•RepositoryServerAdministratorConsole:对知识库的操作,如:知识库的创建、备份、恢复等。VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED客户端工具VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITEDPowerCenter内置的部分转换组件•SourceQualifier:从源表中查询出所有的数据(非XML)•XMLSourceQualifier:从XML数据源中查询数据•ERPSourceQualifier:从ERP数据源中查询出所有数据•Normalizer:从VSAM或关系数据源中格式化记录•Expression:基于单行记录的表达式计算•Aggregator:基于多行记录的汇总计算•Filter:执行条件过滤•Router:按照条件分组来过滤数据•Sorter:基于键字段进行排序•Union:对两个或多个同结构结果集做UnionAll操作。•UpdateStrategy:允许逻辑的插入,更新,删除,或拒绝VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITEDPowerCenter内置的部分转换组件•Lookup:查找相关的值并且传送给其他的对象•Joiner:关联异构数据源•StoredProcedure:调用存储过程并且获取返回值•ExternalProcedure:从共享库中调用一个外部的用户定义的过程•Custom:利用C/C++等编程语言开发客户自定义的转换组件。•SequenceGenerator:产生一组唯一的序列id•TransactionControl:自定义事务处理•Rank:取出最大或最小的一定数量的记录•Input:定义Mapplet的输入,仅在Mappletdesigner中可用•Output:定义Mapplet的输出,仅在Mappletdesigner中可用VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITEDInformatica主要特点•1)图形化设计,无需编码,快速开发和部署。PowerCenter提供了一个可视化的、拥有丰富转换库的设计工具,这个转换库使数据转换变成一个简单的“拖拽”过程。使用PowerCenter,转换组件能够被合并到mapping对象中,独立于他们的数据源和目标,有近20种数据转换组件和近百个函数可以调用,同时可以调用外部的过程和程序,实现复杂的转化逻辑。InformaticaPowerCenter是完全图形化的开发,不需要有语言基础也可上手,内部完全是图形化设置,不需在组件是编写脚本语言。可通过简单的操作,完成此需求:VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED易使用、易管理:图形化界面VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITEDInformatica主要特点2)映射的自动匹配:在Designer的设计中,有“Auto-link”的自动匹配功能,具有高级匹配功能,可进行前缀、后缀和位置的自动匹配。3)自动完成时间类型的转换,如在记录中,符合时间格式,可自动进行字符型和时间类型的转换,并且提供to_char,to_date等强制转换函数。VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITEDInformatica主要特点•4)字段的拆分,内置众多的字符串函数,例如SUBSTR,Instr等,可完成字段的拆分、合并等操作。•5)多字段的混合运算,内部具有Expression组件,可增加复杂的多字段混合计算,同时可嵌入100多种函数和参数,极大的提高了计算表达式的灵活性。VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED对数据源的支持•对广泛数据源的支持和通用的数据连通性。•关系型和平面文件•Oracle•DB2•SQLServer•Teradata•Sybase•Informix•FlatFile•WebLogsVANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED运行环境VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITED安装InformaticaPowerCenter•安装存储资料库的数据库•安装PowerCenter服务端•安装PowerCenter客户端参考安装文档VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITEDInformatica公司简介公司成立于1993年Nasdaq:INFA(1999)全球职工1200+产品世界级数据集成工具平台数据质量管理元数据管理工具平台VANDASYSTEMS&COMMUNICATIONSHOLDINGSLIMITEDDesigner菜单简介•Respository:包括了连接选项,添加资料库,配置Domain以及open操作。•Edit:分两种1.open前:copy,delete,clear和selectall。2.open后:增加了find,Paste等操作。•View:包括状态栏,导航栏,信息输出,调试,全屏等选项。•Tools:包括源分析,目标设计器和四个客户端的连接等。•Layout:布局选项.•Versioning:版本控制.•Sources/Targets/Transformations/Mappings•/Mapplets:各自的导入方式选择和新建等操作。•Windows:窗口操作。•Help:帮助。VANDASYSTEMS&COMMUNICATIONSHOLDINGSL
本文标题:ETL抽取工具Informatica
链接地址:https://www.777doc.com/doc-5693264 .html