您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > Informatica-MDM实施指南V6-Part1
VELOCITY最佳实践MDMHub实施指引–最佳实践合集联系人:PeterXu续岩Email:pxu@infromatica.com©2012InformaticaCorporation.Allrightsreserved.VelocityMethodologyMDMHub实施指引2of85InformaticaVelocity–最佳实践目录1引言.........................................................................................................................................32数据分析.................................................................................................................................33设计数据模型.........................................................................................................................64信任分数和校验规则的使用...............................................................................................26MDMHub实施指引3of85InformaticaVelocity–最佳实践1引言1.1序欢迎查阅InformaticaMasterDataManagement(MDM)Hub实施指引。本指引介绍了如何设计、实施InformaticaMDMHub。适用对象为数据管理员、系统管理员、数据管理员、应用开发人员以及其他辅助设计和实施MDMHub的技术人员,更多信息请参阅章节“1.2目标读者”。读者需要熟悉MDMHub所在系统平台,例如如果系统平台为Windows,那么用户必须了解Windows操作系统知识和InformaticaMDMHub所需的组件服务。数据库管理员必须熟悉相关数据库系统环境,Oracle数据库管理知识尤为重要。关于其他管理配置任务信息,请参阅产品文档《InformaticaMDMHubConfigurationGuide》和《InformaticaMDMHubUser’sGuide》。本指引不涉及MDMHub和相关支持软件的安装。了解MDMHub软件安装,请参阅产品安装手册。1.2目标读者本指引主要面向以下读者群体:读者群体描述MDMHub实施人员负责按照实际需求进行MDMHub的设计、开发、测试和部署的人员。建议阅读本指引所有章节。HierarchyManager实施人员负责HierarchyManager的设计、开发、测试和部署的人员。数据管理员数据质量维护者。按照InformaticaMDM的术语,数据管理员指负责日常数据审核,对业务数据进行纠正和人工合并的人员。InformaticaMDM管理员负责根据数据管理员的要求,对匹配规则和功能进行日常维护配置和更新的IT人员。2数据分析本章主要介绍了在InformaticaMDMHub实施过程中设计数据分析部分的最佳实践。2.1准备工作InformaticaMDMHub项目开始的关键一步是了解数据。例如,对于每个数据源,需要了解数据的准确程度、数据结构、数据大小、数据容量以及数据增长速度等相关信息。数据分析工作在Velocity方法论中的分析阶段执行。分析阶段的工作是在Velocity方法论中的发现阶段之后。在发现阶段,通过高层级的数据分析,找出数据问题或可能会影响项目实施的数据差距。在此基础上,分析阶段进行数据分析和业务功能需求分析两部分工作。这两部分是相互并行并相互影响的。数据分析的结MDMHub实施指引4of85InformaticaVelocity–最佳实践果通常会对需求部分的细化说明产生影响,反之亦然。但需要注意到是,数据分析并不依赖于需求分析的结果。2.2定义InformaticaMDMHub和数据源/目标系统之间的工作流数据分析开始第一步是要确定进入MDM系统的数据源系统的范围。用户必须清楚哪些数据需要进入MDM系统,从哪里获取数据以及数据的流向系统即目标系统等。上层粗粒度(在发现阶段)的工作流图可以是一张简单的系统级的气泡图,到后期设计阶段的技术设计方案中需要将其具体化,具体到每张表或文件。2.3了解数据源的数据特点对于每个数据源,都需要考虑下列内容:•确定数据类型、数据年龄、数据质量、数据容量、来源以及其他与数据集相关的属性•找出数据质量问题•确定主键•了解数据之间关系,如1:N,N:N等Gainanunderstandingofthedatacardinality—betweenentities,aswellasconsolidationcardinality.•明确数据总量,增量数据大小,装载频率等•确定各个系统的初始化要求Identifyanyspecialinitialdataloadrequirementsforthesystem.•分析数据的差错状态,确定每个源系统的差错频率Analyzedataforinvalidconditions,andthenperformfrequencyanalysistodeterminehowoftenthoseconditionsoccurpersource.•区分可以通过清洗规则修复的数据差错问题与不可修复的问题。对于不可修复的数据问题,需要考虑通过定义信任分数和校验规则进行处理。常见的不可修复的数据问题,有名称残缺,空值等。•重要的一点是要明确最正确的数据,而不仅仅是数据格式的正确。Itisimportanttoidentifywhatisthemostcorrectdata,notjustthemostcorrectlyformatteddata.•考虑数据发布的目标系统,即当BO数据更新时,哪些外部系统包括数据源系统需要进行同步。例如将主数据系统中的客户的地址变更发布到CRM系统中。针对这种情况,就需要考虑定义消息队列,进行数据变更的发布。关于消息队列的配置等内容,请参考《InformaticaMDMHubConfigurationGuide》。2.4构建数据样本集为了便于数据分析,需要针对每个数据源系统,构建一个完整的、多样的、具备数据代表性的生产数据样本集。样本集必须涵盖多种数据类型、反映出真实数据的特点。样本集越贴近真实数据,数据分析的效果越好。数据样本集是之后进行匹配规则设计、配置和测试的最佳资源。2.5考虑数据量化评估数据源的详细信息是进行主数据项目量化评估的基础,需要考虑下列因素:数据容量——数据记录数、单条记录大小、最大数据集以及原始数据量、数据合并转化比例以及数据匹配程度(重复率)数据变化——源系统数据更新频率加载频率——数据加载到主数据系统的频率数据模型——BO表(目标表)的数量数据历史、审计要求源系统的个数MDMHub实施指引5of85InformaticaVelocity–最佳实践匹配规则性能要求等2.6考虑数据和业务流程之间的关系了解以下几点非常重要:业务流程中涉及到每个字段的数据以及业务用户所提交的字段每个源系统中数据获取过程和校验过程的质量数据使用情况与数据提供者的目的一致度(越接近越可靠)2.7考虑数据清洗与标准化规则进行数据分析时,需要考虑哪些属性需要进行数据清洗和标准化。利用CleanseList可以实现数据的标准化(通过Staging过程),例如业务代码标准化。如果使用CleanseList进行代码的标准化,那么在数据装载过程中可以考虑在MDMHub中针对每一类码值创建一张参考表。这样可以确保含有错误码值的数据不会加载到目标表中(关联失败的数据会被插入到Reject表)。2.8考虑信任分数和校验规则在项目的分析和设计阶段,非常重要的一点是要找出影响数据源信任分数的因素,并选择好所需的校验规则。尽管设置信任分数通常在实施过程的后期进行,但用户应该在数据分析阶段就要考虑对于信任分数的设定。在分析阶段,应尽量多关注数据准确度的不同级别,这些信息会对于后期配置信任规则有所帮助。数据的质量是决定信任分数设置的关键因素。在数据分析过程中,如果发现某些数据存在质量问题,尤其是无法通过清洗规则进行校正的问题,那么其信任分数就应该很低。关于配置信任分数的具体操作,请参考“第4章,信任分数和校验规则的使用”。更多信息,请参阅《InformaticaMDMHubConfigurationGuide》2.9信任分数在MDMHub中,InformaticaMDM的信任框架可以确保数据合并结果在字段级别获取到各个来源系统中最可靠的数据信息。信任机制基于来源系统、变化历史以及其他业务规则确定字段的信任分数,从而体现出字段的可信度。信任机制在设计时考虑到数据的正确性、数据年龄以及数据可靠性的时间衰减曲线。更多信息请参考“4.1信任机制的使用”信任分数在字段级进行分配,用户可以通过调整配置实现对信任分数比对结果的指定。例如,源系统1的“客户姓名”字段相对更为可信,而源系统2的“电话号码”字段则相比其他系统更为可信。对于每个源系统字段的信任分数,都有如下一些属性可以配置:初始最大分值最小信任分值信任分数的衰减周期或时间衰减类型或衰减曲线(直线或曲线)MDMHub实施指引6of85InformaticaVelocity–最佳实践例如,针对来源于某网络应用系统的“电子邮件”字段,可以设置初始最大信任分数为80,最小值为20,衰减时间为一年,衰减类型为先慢后快(SIRL),曲线衰减。另外对于主数据系统“内部”的数据源,即不受企业系统管控的数据源,如购买的第三方标准数据,这些数据源的数据通常可以认为具有较高的可信度,因此用户在考虑信任分数设置时可以给出相对较高的信任分数。2.10校验规则ValidationRulesInformaticaMDMHub利用校验规则发现数据值不正确的情况。如果数据符合校验规则所定义的条件,那么相应的信任分数就会按照之前规则设定的比例随之下调。更多内容,请参考“校验规则的使用”。如下是几个校验规则的示例:当姓名的长度小于3且不等于‘NG’时,下调姓名字段的信任分数DowngradetrustonLastNameiflength(last_name)3andlast_name‘NG’当中间名字为空时,下调中间名字字段的信任分数Downgradetrustonmiddle_nameifmiddle_nameisnull当地址校验失败时,下调相应的地址信息字段:地址信息1,城市,州名以及邮编字段DowngradetrustonAddressLine1,City,State,ZipandValid_address_indifValid_address_ind=‘False’如果勾选了字段的“保留最小值”(ReserveMinimumTrust)标志,那么相应字段的信任分数即使受到校验规则影响下调,也不会低于设置的最小值。2.11考虑匹配规则ConsiderMatchRules尽管匹配规则的配置工作是在项目实施的后期进行,但在数据分析阶段就要开始考虑日后匹配规则的设计,因为数据的实际情况会影响到匹配规则的设计。因此在数据分析时,就要对匹配规则开始关注。寻找适合用于匹配的字段。例如,性别字段80%的值为空,那么这个字段就不适合作为匹配依据字段。同理,研究字段取值的分布性可以助于确定基于相关字段的匹配规则的匹配宽松程度。更多关于匹配规则的设计,请参阅第5章,“配置匹配规则”。关于匹配规则的配置操作,请参考《InformaticaMDMHubConfigurationGuid
本文标题:Informatica-MDM实施指南V6-Part1
链接地址:https://www.777doc.com/doc-4152774 .html