您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 石油/天然气工业 > 国家级石油数据中心建设与POSC系列标准
国家级石油数据中心建设与POSC系列标准袁满yuanman@263.net(黑龙江省大庆市大庆石油学院计算机学院)1引言信息技术的应用已经深入到石油工业应用中的各个环节。而且随着石油工业的发展,积累的信息呈爆炸式增长。存储与维护这些信息的费用也越来越高,尤其是随着石油市场竞争日趋激烈,迅速而准确地从现有的信息中抽取出有用的决策信息是现代石油生产、销售与管理等迫切需求的。而以往只是面向应用的数据模式的应用已经满足不了这种需求。随之而来的一种面向主题的联机分析与决策应用便应运而生。正是在这种应用需求的驱动下产生出了适合这种应用需求的数据仓库技术。进入90年代,世界上一些国家的油公司、石油协会、石油相关的组织、一些大学及研究机构联合先后建立了自己的数据仓库,这些国家从这些数据仓库中得到了相当的效益,为油田的勘探、开发等提供了可靠的、科学的决策依据。自90年代初至今,世界许多著名的油公司与相关组织联合发起并成立了POSC,旨在为世界油田勘探与开发制定一套集数据集成、软件集成等于一体的标准,而且这些标准已经越来越被各国的油公司所认可。这些标准必将成为世界共同的财富,必定会促进油公司信息系统建设,并为其建设提供可参考与可实施的标准。本文主要讨论了三个主要的问题:一个是讨论了数据仓库及相关技术;接着讨论了POSC的系列标准;最后给出了世界上数据仓库成功的案例-美国国家地球科学数据仓库系统(NGDRS)。通过本文的讨论,旨在说明数据仓库建设在石油生产、管理等各个领域的应用潜力;提到数据中心建设就必然会涉及到标准问题,而POSC系列标准正是为这一目的而制定的。POSC系列标准经过10多年的发展与完善已经越来越得到世界的认可,尤其POSC组织目前正在进行的基于电子商务的石油数据交换规范更加细致与实用,这些为我们的信息建设提供了可参考的标准。并全通过一些大组织在信息建设中对POSC系列标准的采用的实践已经证明了POSC系列标准的先进性。2数据仓库体系结构及相关技术2.1数据仓库的概念及特点近年来,数据仓库技术已经成为计算机领域中的热门话题。这主要是因为:首先,从计算机的应用需求上讲,由于全球范围内的经济、贸易以及军事、科技等领域竟争的激烈,给传统的信息产业提出了新的问题和挑战,使得传统的信息技术在处理某些复杂问题上显得力不从心;另一方面,从现实的技术发展角度上来看,目前计算机科学以及相关领域的技术实现了突飞猛进的发展,使得它们之间的相互协同成为可能,并达到使数据仓库技术走向实用的程度。数据仓库的概念最早是由W.H.Inmon和RichardHackathorn在他们的著作中提出来的。他们对数据仓库是这样定义的:数据仓库是信息技术构架的新焦点,它提供集成化的和历史化的数据,它集成种类不同的应用系统,数据仓库从发展和历史的角度来组织和存储数据,以供分析与处理使用。这里的的集成化数据是指数据在结构上具有综合性而且在语义上是异构的;历史化的数据表明数据仓库中包含的数据是一段历史性的数据,它既包括某一点上的瞬间信息,同时也包含一个区段上的信息;集成种类不同的应用系统说明数据仓库不仅仅是数据的仓ExtractTransformLoadRefreshExternalSourceOperationaldbsDataSourceMonitoring&AdministrationMetaDataRepositoryDataMartsDataWarehouseServeAnalysisQuery/ReportDataMining图1 数据仓库体系结构库,同时也是软件的仓库。其中的数据一般按应用主题进行组织与存储。也有人将数据仓库抽象地定义为:数据仓库是决策支持技术的集合,其目的是利用所存储的知识做出更好、更快的决策。数据仓库体系结构见图1。也有人将数据仓库定义为:面向主题的、集成的、随时间变化的、用来支持组织决策的稳定数据的集合。不管哪种定义,它们均有共同的特点:●数据仓库需要为决策提供综合信息,因此,它是以企业业务的主题内容来组织数据。这样的组织形式使得提供的信息具有全方位的可用性。●数据仓库中所保存的数据,虽然来自于日常的运行,但是它是经过加工、重组的数据。因此它所存储的数据是源数据的增值和统一,并不是简单的拷贝。●数据仓库不仅仅是“数据的仓库”,而且也是“软件的仓库”,至少它应该包含对数据的变换功能。●数据仓库还需要处理历史数据。任何的数据都带有时间标记,这将为实现预测奠定基础。●数据仓库应当能够通过信息以及服务来反映企业的业务模型,实现数据的逻辑模型。●对于行业的数据仓库必须定义统一数据标准。2.2组成数据仓库的部件从图1可以看出,数据仓库的组成结构。它包括各种各样的工具:这些工具负责从若干个运行着的外数据库及外部数据源中抽取数据,并负责对这些数据的清洗、变换与集成,同时还负责向数据仓库中加载数据;这些工具还要周期地对数据仓库进行更新,并负责对数据仓库中一些归档数据的净化。除了主数据仓库之外,可能还会存在一些部门级的数据集市。存储在数据仓库或数据市场中的数据可能被一个或若干个数据仓库服务器负责管理,这样对不同的前端工具会呈现出各种丰富的数据视图以满足不同决策与应用的需求,这些前端工具可能包括:查询工具、报告生成器工具、分析工具以及数据挖掘工具。此外,还包括一个用来存储和管理元数据的仓库和一些用来管理与监测数据仓库的工具等。2.2.1数据仓库的后端工具下面对其中的几个有代表性的工具进行简单介绍,数据仓库系统利用数据提取、清冼、加载与更新工具对数据仓库中的数据进行整理。从“外部”源中提取数据通常是通过一些网关和标准接口(例如InformationBuilder的EDA/SQL、ODBC、Oracle的开放互连、Sybase的企业互连以及Informix的企业网关等)。数据仓库的后端工具的功能如下:●数据清冼工具(Cleading):由于数据仓库被设计成用来决策的,所以保障数据仓库中数据的正确性是相当重要的。数据仓库中的数据来自于多个数据源,而且数据量是相当之大,所以造成数据不一致与异常的概率是相当高。因此,对这些数据异常的检测与校正要付出相当的代价。这一工具可能会根据需要被划分为几个子工具:数据变换工具(允许对工具指定一些简单的变换规则)、数据净化工具(根据域的指定范围来对数据净化)以及数据审计工具等。●加载工具(Load):当数据被抽取、清冼以及变换之后,数据就必须被加载到数据仓库中。数据加载工具除了对数据进行加载之外,它还允许系统管理员来监测系统的状态,取消、挂起以及重新开始加载操作。数据仓库中数据加载的量要比运行数据库中数据的加载大得多。数据的连续加载可能会持续很长时间,例如,加载万亿字节的数据可能会花费几周甚至几个月的时间。●更新工具:更新过程主要是更新由数据源向相应的要更新的数据库以及存储在数据仓库中的导出数据的传播。在更新中主要考虑两个问题:何时对数据更新以用如何来更新。通常情况下,数据仓库是被周期更新,一般情况下,数据更新策略是由系统管理员根据用户的需求与流量以及对不同数据源进行不同的设置。2.2.2数据仓库的前端工具以及数据仓库服务器电子表格是典型的用于联机数据分析与图形显示的工具。为提高对数据仓库的查询与访问效率,数据仓库服务器要考虑高效的选择,可以采用索引交集的形式来实现多重条件的选择操作。在数据仓库服务器上会采用许许多多先进技术以保证决策对速度的需求。2.2.3元数据与数据仓库管理由于数据仓库反映了企业的业务模型,在数据仓库体系结构中一个最基本也是最重要的要素就是对元数据的管理。所谓的元数据是关于数据的数据,用于建立、维护、管理及使用数据仓库,在数据仓库中需要管理不同种类的元数据,具体包括:●元数据描述●变换描述:运行数据库到仓库映射方法以及用于转换、增强数据的转换算法。●数据仓库对象和数据结构定义。●数据仓库运行信息。元数据包括了关于建立与使用数据仓库的所有必需信息:源数据库描述、后端与前端工具描述;数据仓库模式定义描述、导出数据描述、维与分层描述、预定义的查询与报告描述;数据集场位置与内容描述;数据分区的物理组织描述;数据抽取、清冼、以及变换规则描述;数据更新与净化策略描述;用户配置、授权与访问控制描述。通常情况下,一个元数据仓库用来存储与管理所有的与数据仓库相关的元数据。元数据在整个数据管理中占有相当重要的地位,所以在进行企业数据仓库建设中必须对元数据进行规范化或标准化定义,这样为整个数据仓库的数据管理、数据交换等奠定基础。目前有许多组织与研究机构在对如何进行元数据的定义与管理进行研究,力求一种完美的方法解决这一难题,而POSC组织针对石油中心数据模型Epicentre定义了一个完整的元模型。通过上面的讨论,可以清楚地看出,如果要进行国家级数据仓库建设,必须考虑所建数据中心中各组件所涉及技术的规范化与标准化定义问题,否则会增加将来的维护与使用的费用,不能与其它外部系统的互操作等。3开放的石油软件集成技术标准-POSC相关技术POSC技术通过十多年的努力已逐步发展为一个成熟而日臻完美的一套适合于石油勘探与开发以及管理等软件集成的标准,尤其是它的数据规范经过初期的1.0、2.0、2.1、2.2直到今天的3.0模型标准,经过多年的完善、补充与删减使这套标准日趋走向成熟。具体来讲,整个POSC规范从基本的数据模型规范、数据存取与交换规范以及用户的界面风格规范均有体现,它是一套完整的用于指导勘探与开发应用软件集成与建设的指南与可参考的系列标准。3.1POSC规范综述从整体来讲,POSC组织定义了七个标准,这些标准覆盖了整个石油勘探与开发应用软件开发、集成、数据存取与交换等的各个环节,它是一个指导石油勘探与开发应用软件开发、集成的一套完全标准,具体包括:●基础计算机标准:为应用程序定义了一个软件环境,使应用程序独立于计算机硬件,对操作系统、系统调用、图形用户界面及绘图语言、图形元文件、网络以及编程语言等应用标准进行了全面地定义。●Epicentre数据模型规范:采用面向对象技术,定义了E&P工业中的逻辑数据模型,该模型与底层的物理存储无关。●数据存取与交换规范:定义了应用程序所使用的一套API与数据结构。●数据交换格式规范:用于在异构的计算机环境间进行数据交换,或用于对计算机系统进行数据备份。POSC的数据交换格式(PEF)以美国石油学会建立的RP66格式为基础。●E&P用户界面风格指南:这一规范向应用的开发者提出了向用户提供统一的界面标准,它遵循OSF/MOTIF,POSC对图形外观、图符、窗口等进行了定义,同时还定义了各种岩石、气体、石油、水等物质的图形与颜色。●应用程序间的通信(IAC):以消息为单位,定义了一套应用程序之间进行通信的接口规范,使得在相同或不同的机器上同时运行的应用程序之间可以交换数据。它是软件集成的一个有力工具。●石油工业计算机图形元文件规范:用于石油工业应用软件间的图形交换,涉及全矢量图形或矢量与光柵混合的二维图形。在此基出上,扩充定义了地震与测井部分图形规范。POSC定义的软件集成平台体系结构见2。图2给出了采用POSC规范实现应用程序、数据及各部件通信的集成平台。所以POSC不仅是一个数据集成平台,同时它也是一个软件集成平台。在下面的各节中,我们对这七个标准进行讨论。3.1.1基础计算机标准软件集成平台是应用程序和操作环境的中件软件层,其目的是简化应用程序的可移植性和互操作性,为此POSC定义了计算机环境所应遵循的标准。其基础规范见图3。在这一规范中定义了一系列系统调用、数据存取、数据交换、用户界面等相当全面的开发规范,而且这些规范全部是基于已有标准定义的,所以依据这些标准进行软件的开发,必然会实现不同程序间的互操作性、增强其移动性与可扩充性。存储介质数据访问接口基础计算机标准用户界面风络指南应用程序1应用程序2应用程序nIAC(1-n)IAC(1-2)IAC(2-n)数据访问接口数据访问接口数据库引擎DAE/Epicentre数据内容公共接口PEF/EpigrammePOSC数据仓逻辑到物理的转换Ep
本文标题:国家级石油数据中心建设与POSC系列标准
链接地址:https://www.777doc.com/doc-1084201 .html