您好,欢迎访问三七文档
数据整合培训郑斌高级顾问组件及其功能看资料、答疑7-7上午Datastage组件及基本功能讲解为主7-7下午练习练习为主7-8上午Datastage高级功能操作为主7-8下午练习练习为主主题数据整合方法论主流方法简介设计方法论实施方法论AscentialDataIntegrationSolutionDatastage组件AdministratorManagerDirectordesign基本功能Datastage高级功能数据整合方法论数据整合成熟的方法论多年的积累,成熟的经验以方法论为核心指导原则统一的标准化方法论模型标准化代码统一数据结构统一业务术语统一完善的元数据管理数据源元数据管理数据中心元数据管理应用元数据管理正确的数据质量评估方法论数据质量暴露数据质量评估数据质量对策主题数据整合方法论主流方法设计方法论实施方法论AscentialDataIntegrationSolutionDatastage组件AdministratorManagerDirectordesign基本功能Datastage高级功能数据整合方法论-主流方法主流方法简介先统一再ETL先抽取再统一,最后进行数据转换和装载代码、数据结构、业务术语统一清洗、转换、装载数据抽取IntegrationT+L代码、数据结构、业务术语统一清洗、转换、装载数据抽取EIntegrationT+LEDB2IIDatastage/PowerCenterDatastage/PowerCenterDatastage/PowerCenterDatastage/PowerCenter主题数据整合方法论主流方法简介设计方法论实施方法论AscentialDataIntegrationSolutionDatastage组件AdministratorManagerDirectordesign基本功能Datastage高级功能数据整合方法论-设计方法架构设计SQLOracleDB2InformixOAFileXMLFileFileFlatFile数据源临时存储区企业级数据仓库星型模型明晰数据分析模型数据集市OLAP前端分析平台应用服务器最终用户架构设计流程设计模块设计数据中心数据整合方法论-设计方法流程设计流程设计指的是关于数据处理流程的设计,通常有2种设计思路:分层设计分层设计是指将数据处理的流程细分,将共性归类,形成数据处理的几个层次按业务流程设计按业务流程设计是指将数据处理流程与业务流程相对应,即面向业务流程进行设计架构设计流程设计模块设计数据整合方法论-设计方法分层设计图例100国结非汇款部分国结业务系统国结汇款部分柜台汇款部分(文本)DW通过时间戳获得增量的事实数据对原始层表进行处理,增加各种维信息字段,并去掉大多数不必要的字段DataStage处理过程Insert/Replcace每日更新的维表相关信息原始数据层转换数据层明细数据层Insert/Replace增量明细数据表,可用于透明访问明细表总表,可用于透明访问。每天增量的数据Append进去Insert/AppendDataStage处理过程柜台业务系统事实数据维表数据数据源数据原始层数据转换层应用数据层数据整合方法论-设计方法按业务流程设计图例报案原始表核赔原始表赔案原始表车险理赔进度明细表报案表核赔表赔案主档赔案号、保单号、报案时间、报案状态、维度信息通过险种码取车险记录获取报案,注销状态赔案号、保单号、上报时间、批复日期、核赔标志、维度信息注销标志、维度信息赔案号、保单号、立案时间、结案时间、注销标志、维度信息通过险种码取车险记录通过险种码取车险记录获取申请核赔、已核赔状态获取立案、结案、撤案状态车险理赔进度分析数据直接从源到目标数据整合方法论-设计方法模块设计模块功能维度处理业务数据处理脏数据处理数据备份及日志处理流程处理(流程调度与控制)历史/增量数据处理模块复用性公共业务数据公共系统参数公共转换过程模块处理性能整合工具调优转换过程优化数据库性能调优架构设计流程设计模块设计数据整合方法论-设计方法设计注意事项(一)取数规则、数据转换规则取数规则的设计要求双方技术人员参与,数据转换规则的设计除要求双方技术人员参与,还需要业务人员参与。这2个规则是后续设计的基础,为了避免在后续过程中因规则改变导致重新修改结构的情况发生,这个步骤应给与足够的重视。脏数据处理规则脏数据即不符合业务逻辑、不适合做业务分析的数据,因此,在设计过程中应确定脏数据处理的原则,避免系统中存在的脏数据给分析决策带来误导。数据整合方法论-设计方法高质量的数据是指那些符合业务需求的、反应客观事实的数据。衡量数据质量可在以下几个方面进行:数据质量特征描述正确性•数据值必须与数据域一致,没有超出数据范围。准确性•一个数据值与设定为准确的值之间的一致程度。•由业务专家审查决定是否没有错误。完全性•一致性——维护数据使不同系统的数据没有差异和相互矛盾。•一组数据满足一组约束条件的程度。完整性•不同系统的相关数据之间联接是正确的。唯一性•决定数据记录(和关键数据值)不被重复定义和使用的能力。有效性•符合业务规则,满足分类标准规定的可接受要求。•确定数据值是否可以接受,是否可以产生需要的结果。时效性•单个或多个数据项目能够在要求时间内提供的程度。•特定数值更新的程度。数据整合方法论-设计方法设计注意事项(二)历史数据处理策略历史数据即系统正式运行前所有的数据,数据量大,处理逻辑可能与增量的不一样,应该根据实际情况进行设计。增量数据处理策略增量数据的确定。增量数据主要根据业务逻辑来确定是否,通常根据时间戳来确定,但是存在一些特殊的情况,需要通过日志来判断。如:某条数据在当天被做了修改,但是时间戳没有改变,仍然是以前的某个时间,这就只能通过日志或者其他辅助手段进行判断。增量数据的处理方法,同历史数据相比,二者的数据不一定完全相同,因此需要单独考虑。数据整合方法论-设计方法设计注意事项(三)失败、异常的处理策略由于数据整合过程是一个复杂的数据处理流程,没有好的失败、异常处理策略会增加维护的难度,同时给维护带来大量的工作。下图是一个好的监控系统,维护人员可以很方便的看到系统的执行状态,并及时进行维护。主题数据整合方法论主流方法简介设计方法论实施方法论AscentialDataIntegrationSolutionDatastage组件AdministratorManagerDirectordesign基本功能Datastage高级功能数据整合方法论-实施方法论需求分析报告书开始业务需求分析规则评审数据源分析数据处理规则确定概要设计概要设计评审详细设计(历史、增量、失败处理等)详细设计评审编码单元功能测试数据质量测试数据质量评审流程测试性能测试结束处理规则说明书业务规则数据源分析报告脏数据处理规则概要设计说明书开发计划A详细设计说明书测试计划数据测试报告流程测试报告性能测试报告AYesYesNoNoYesNoNoYes主题数据整合方法论主流方法简介设计方法论实施方法论AscentialDataIntegrationSolutionDatastage组件AdministratorManagerDirectordesigner基本功能Datastage高级功能™ParallelExecutionEngineDISCOVERDiscoverdatacontentandstructurePREPAREStandardize,match,andcorrectdataTRANSFORMandDELIVERTransform,enrich,anddeliverdataProfileStageQualityStageDataStageMetaDataManagementReal-TimeIntegrationServicesEnterpriseConnectivityandEventManagementComplementaryToBPM,EAI,andEIITechnologies•Open,Service-OrientedArchitecture•IntegratedDataProfiling&DataQuality•AdvancedDataTransformationandRouting•ReusableComponents&Rules•UnlimitedPerformancewithLinearScalability•Robust,IntelligentAdapters•Anytime,AnywhereConnectivity•IndustryStandardCompliant(XML,EDI,JMS,JCA)•Industry-ReadyIntegrationSolutionsService-OrientedArchitecture(DatabaseorFile)ODBC/NativeDataStageClient[Manager,Designer,Director](WinNTorWin2000)DataStageConnectAPIDataStageServer(WinNT,Win2000orUNIX)ODBC/NativeDataSources(DatabaseorFile)DataStageManagerDataStageDesignerDataStageDirectorDataStageConnectAPIDataStageConnectAPIDataStageConnectAPIDataflowDataflo运行DataStage作业底层引擎采用UniVerseRDBMS可运行于6种平台IntelNT,AlphaNTAIX,HPUX,SunSolaris,CompaqTru64存储各种定义MetadataTransformationsStages存储运行信息存于UniVerseRDBMS中能import/export从/到各种环境主题数据整合方法论主流方法简介设计方法论实施方法论AscentialDataIntegrationSolutionDatastage组件AdministratorManagerDirectordesign基本功能Datastage高级功能
本文标题:数据整合培训
链接地址:https://www.777doc.com/doc-5349928 .html