您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > 浅谈数据仓库中的元数据管理技术
浅谈数据仓库中的元数据管理技术孙力君仇道霞方峻峰宋楠山东省烟草公司信息中心摘要:数据仓库是数据库的发展方向之一,对企业管理和决策支持起着重要的辅助作用。简要介绍了数据仓库和元数据的基本概念,重点阐述了元数据的概念、作用、CWM标准、来源,并就元数据具体应用进行了初步的研究和探讨。关键词:数据仓库;元数据;1.引言随着市场竞争的越来越激烈,烟草行业的信息化建设不断的深入发展,全行业形成了“以信息化带动烟草行业现代化建设”的基本共识,明确了“统一标准、统一平台、统一数据库、统一网络”,逐步实现系统集成、资源整合、信息共享的信息化建设总体要求,走过了“由基础性向应用性、由局部性向全局性、由分散性向集中性建设”的三个转变历程,初步形成了“数字烟草”的行业信息化建设格局,既对行业数据中心的建设提出了迫切的要求,也为行业数据中心建设奠定了坚实的基础。随着数据库技术尤其是数据仓库技术的发展,人类能更容易获得自己需要的数据和信息,由于元数据是数据仓库中非常重要的组成部分,因此讨论和研究元数据在数据仓库中的作用和应用,具有非常重要的意义。元数据管理是山东烟草数据中心建设的重要组成部分,元数据管理平台为用户提供高质量、准确、易于管理的数据,它贯穿数据中心构建、运行和维护的整个生命周期。同时,在数据中心构建的整个过程中,数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节,均需要通过相应的元数据的进行支撑。元数据管理的生命周期包括元数据获取和建立、元数据的存储、元数据浏览、元数据分析、元数据维护等部分。通过元数据管理,形成整个系统信息数据资的准确视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据,梳理业务元数据之间的关系,建立信息数据标准完善对这些数据的解释、定义,形成企业范围内一致、统一的数据定义,并可以对这些数据来源、运作情况、变迁等进行跟踪分析。完善数据中心的基础设施,通过精确把握经营数据来精确把握瞬息万变的市场竞争形式,使山东烟草在市场竞争中保持优势。总的来说,元数据管理平台集成相关的元数据,形成企业的全局数据视图,提供企业级共享元数据的平台,是烟草业务系统的基础设施,对业务系统的发展、应用和数据质量的提升有着深远影响。2.数据仓库概述目前有关数据仓库的概念有多种,其中最经典的,引用最为广泛的定义是W.H.Inmon在《BuildingtheDataWarehouse》一书中给出的,他指出:“数据仓库是面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理层的决策过程”。[1]之所以要引入数据仓库,是因为随着信息时代的到来,如何从大量已存在的数据中提取出自己所感兴趣的信息并进行分析和预测越来越成为企业管理者和决策者所关心的问题。为了更好的进行管理和决策,许多企业都选择了数据仓库,利用数据仓库可以对各种源数据进行抽取、清理、加工和转换,再利用联机分析系统(OLAP)和数据挖掘系统(MM)提供各种决策信息。对于数据仓库的概念我们可以从两个层次予以,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。在数据仓库系统的众多组成部分中,元数据扮演着十分重要的角色,如何在数据仓库系统中构建元数据库并进行高效的管理,是构建数据仓库系统首先要考虑的问题。3.元数据概念按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员和最终用户非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(TechnicalMetadata)和业务元数据(BusinessMetadata)。(1)技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息:1)数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;2)业务系统、数据仓库和数据集市的体系结构和模式3)汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;4)由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。(2)业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息:1)企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础,不懂数据库技术和SQL语句的业务人员对数据仓库中的数据也能做到心中有数。2)多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。3)业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。4.元数据的作用与其说数据仓库是软件开发项目,还不如说是系统集成项目[1],因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。如图1所示,它的典型结构由操作环境层、数据仓库层和业务层等组成。其中,第一层(操作环境层)是指整个企业内有关业务的OLTP系统和一些外部数据源;第二层是通过把第一层的相关数据抽取到一个中心区而组成的数据仓库层;第三层是为了完成对业务数据的分析而由各种工具组成的业务层。图中左边的部分是元数据管理,它起到了承上启下的作用,具体体现在以下几个方面:(1)企业智能化信息建设的DNA在企业中,数据是无所不在的,是企业信息化建设的血脉。而元数据则是企业血脉中的DNA,是保持企业信息化良性发展的重要组成部分。优质的DNA,才能造就出优质的企业高智能信息化系统。(2)企业元数据标准,助力企业数据和系统的集成1)有利于企业数据、信息共享。2)有利于减少数据冗余性3)有利于应用开发过程更有效,准确及时的元数据,为开发过程提供了指导作用及参照的重要作用4)有利于节约企业成本:元数据提供的信息,极大的保证了开发过程、企业IT运营维护的时效性,并避免重复投资5)避免异构结构定义、提高不同工具之间定义的重复利用率6)使得技术人员和业务人员可以统一的对各业务系统、分析型项目、数据仓库、BI系统等,进行统一的元数据管理和监督。7)统一掌握企业关键业务指标的数据来源及计算规则(3)状态元数据有利于增强企业运营效率、规避错误及风险1)系统、数据库、存储等组成部分的状态即可以看作是数据,也可以视为相对实体的元数据,有利于企业增强维护、合理按排执行任务等动作。2)数据集成的执行状态,也是相对执行作业的元数据,通过作业状态元数据的分析,可以监控服务器运行效率,规避作业执行错误而导致的不良后果。(4)元数据是进行数据集成所必需的数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据上,还体现在实施数据仓库项目的过程当中。一方面,从各个数据源中抽取的数据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系及转换规则都要存储在元数据知识库中;另一方面,在数据仓库项目实施过程中,直接建立数据仓库往往费时、费力,因此在实践当中,人们可能会按照统一的数据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。不过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决“蜘蛛网”的关键。如果在建立数据集市的过程中,注意了元数据管理,在集成到数据仓库中时就会比较顺利;相反,如果在建设数据集市的过程中忽视了元数据管理,那么最后的集成过程就会很困难,甚至不可能实现。(5)元数据定义的语义层可以帮助最终用户理解数据仓库中的数据最终用户不可能象数据仓库系统管理员或开发人员那样熟悉数据库技术,因此迫切需要有一个“翻译”,能够使他们清晰地理解数据仓库中数据的含意。元数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方式“翻译”出来,从而帮助最终用户理解和使用数据。(6)元数据是保证数据质量的关键数据仓库或数据集市建立好以后,使用者在使用的时候,常常会产生对数据的怀疑。这些怀疑往往是由于底层的数据对于用户来说是不“透明”的,使用者很自然地对结果产生怀疑。而借助元数据管理系统,最终的使用者对各个数据的来龙去脉以及数据抽取和转换的规则都会很方便地得到,这样他们自然会对数据具有信心;当然也可便捷地发现数据所存在的质量问题。甚至国外有学者还在元数据模型的基础上引入质量维,从更高的角度上来解决这一问题。(7)元数据可以支持需求变化随着信息技术的发展和企业职能的变化,企业的需求也在不断地改变。如何构造一个随着需求改变而平滑变化的软件系统,是软件工程领域中的一个重要问题。传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档还是远远不够的。成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性。5.元数据业界标准没有规矩不成方圆。元数据管理之所以困难,一个很重要的原因就是缺乏统一的标准。在这种情况下,各公司的元数据管理解决方案各不相同。近几年,随着元数据联盟MDC(MetaDataCoalition)的开放信息模型OIM(OpenInformationModel)和OMG组织的公共仓库模型CWM(CommonWarehouseModel,如图2所示)标准的逐渐完善,以及MDC和OMG组织的合并,为数据仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。CWM为数据仓库和商业智能(BI)工具之间共享元数据,制定了一整套关于语法和语义的规范。它主要包含以下四个方面的规范:(1)CWM元模型(Metamodel):描述数据仓库系统的模型;(2)CWMXML:CWM元模型的XML表示;(3)CWMDTD:DW/BI共享元数据的交换格式(4)CWMIDL:DW/BI共享元数据的应用程序访问接口(API)CWM通过以下几方面提供很强的对象模型:UML:以通常方式定义元数据结构及语义的标准语言;XML:作为互换机制的标准,用于共享元模型及在UML中以XML定义模型;MOF:(MetaObjectFacility)定义协同元模型的公用接口及语义。包括MOF-to-IDL(接口定义语言)映射,定义了一个接口规范标准用于通过API访问、发现、管理模型。(1)元模型(BASE)包构造和描述其它CWM包中的元模型类的基础。它是UML的一个子集,由以下四个子包组成:1)核心(Core)包:它的类和关联是该模型的核心,其它所有的包都以它为基础。2)行为(Behavioral)包:包括描述CWM对象行为的类与关联,并且它为描述所定义的行为提供了基础。3)关系(Relationships)包:包括描述CWM对象之间关系的类与关联。4)实例(Instance)包:包括表示CWM分类器(Classfier)的类与关联。(2)基础包(Foundation)它包括表示CWM概念和结构的模型元素,这些模型元素又可被其他CWM包所共享,它由以下六个子包组成:1)业务信息(BusinessInformation)包:包括表示模型元素业务信息的类与关联。2)数据类型(DataTypes)包:包括表示建模者可以
本文标题:浅谈数据仓库中的元数据管理技术
链接地址:https://www.777doc.com/doc-2315864 .html