您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 大数据分析及海量油田数据管理技术
大数据分析及海量油田数据管理技术2012年3月29日,美国联邦政府发布公告称将开发“大数据研发项目”,以最大限度地利用规模飞速增长的数字化数据。一石激起千层浪,“大数据”这一并不是非常新的术语再次引起了世界各方的高度重视。而大数据研究的核心并非数据的“量”有多大,而是如何有效、有序、系统地处理(包括访问、收集、保护、存储、管理、分析、挖掘、共享、辅助决策等)大量数据。因此也衍生出一个非常重要的研究领域—大数据分析(BDA)。一、大数据简述有关大数据,目前定义较多。通常来讲,大数据指的是规模超过了当前典型数据库软件工具获取、存储、管理、分析能力的数据集。可以看出,这种描述实际上是一种动态的描述,因为当前的技术总是在不断发展。严格来说,“大数据”更像是一种策略而非技术,其核心理念就是以一种比以往有效得多的方式来管理海量数据并从中提取价值。可以从如下4个方面(“4V”)来阐述“大数据”理念。(1)数据类型多样(Variety)。即所处理的对象既包括结构化数据,也包括半结构化数据和非结构化数据。(2)数据处理高速(Velocity)。即各类数据流、信息流以高速产生、传输、处理。(3)数据规模海量(Volume)。即所需收集、存储、分发的数据规模远超传统管理技术的管理能力。(4)数据价值密度低(Value)。即大数据中的价值密度很低,因此也增加了价值挖掘的难度。由于海量数据中既包括结构化数据也包括非结构化数据,因此,分布式计算与分布式文件管理即成为了“大数据”策略的核心。目前有关BDA,尚无明确定义。简而言之,就是将先进的分析技术用于大数据集。因此,BDA主要关注两方面内容:大数据本身及分析技术本身;如何将二者有机融合,以实现从大数据中提取有价值的情报并用以辅助决策之目的。具体来说,可用于BDA的分析技术包括了预测分析、数据挖掘、统计分析、复杂结构化查询语言(SQL)等,以及那些可以支持大数据分析的数据可视化、人工智能、事实聚类、文本法分析、自然语言处理、数据库等相关技术。可以看出,大多数BDA技术其实均可归入“发现分析”或“发掘分析”技术的范畴,而发现、发掘情报也是BDA的主要目标之一。可以看出,实际上很多BDA技术并非什么新技术,只是由于其非常适用于“大数据”这一新兴对象,因此重新“焕发青春”。大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。一些但不是所有的MPP的关系数据库的PB的数据存储和管理的能力。隐含的负载,监控,备份和优化大型数据表的使用在RDBMS的。对于大数据,它也是经常可以创建适用于大多数分析的汇总数据。例如一个计算不同地点车辆数量的交通遥测应用。这中方法可以产生大量的数据,但是如果汇总数据最后一分钟还存储在内存中,最后一小时存储在闪存中,最后一天存在磁盘上,那么控制应用程序所需的实际时间可以通过快速访问资源得到满足,然而假设分析时我们可以使用一些更便宜、更慢的应用程序是会怎样。SOA都是抽象的,但当抽象隐藏了底层影响性能和响应时间的复杂性时,这种抽象的危险程度会提高。数据访问也是这样的,因此SOA架构师需要认真地考虑抽象与性能之间的平衡关系,并为其特定的业务需求优化它。二、BDA关键技术与工具及其发展趋势2011年,相关机构进行了“大数据分析工具、技术与趋势”调查。该调查列出了几乎所有与大数据分析相关的工具与技术,其中包括如下几类:新兴的,如云计算、MapReduce、复杂事件处理(CEP);不是新兴但适用于大数据分析的,如数据可视化、预测分析;已有且比较成熟的,如统计分析、手工编码的SQL。此次调查可相对比较客观地展现BDA关键技术与工具及其发展趋势。相关技术与工具的当前使用情况及未来发展趋势。可以看出,隶属于第一组的工具与技术基本上可以代表BDA关键技术与工具的发展趋势,即高级分析技术与工具、高级数据可视化技术(ADV,未来发展势头最为迅猛的技术)、实时仪表盘、内存内数据库和非结构化数据分析技术等。从功能角度来讲,BDA实现了从大数据到情报(即价值)的转换,而这种转换本身与大数据的“4V”特性分不开。转换过程必须采用各种BDA平台、工具,如阿帕奇Hadoop。Hadoop技术与平台使得大数据分析人员可以对原始数据进行分析,并得到支持决策所需的情报。考虑到大数据的一些新特性,BDA也必须采用一些新的方法和流程来实现情报提取。以利用Ha-doop技术与平台实现BDA为例,典型的BDA实施流程与常用的OODA环(观察、定位、决策、行动)有些类似,包括大数据访问、大数据聚集、大数据分析决策、行动等环节,且并最终实现人在环路或人不在环路的闭环。从分析对象来看,BDA主要分析静态大数据(bigdataatrest)和动态大数据(bigdatainmotion)。三、BDA在情报领域内的应用研究从上述对BDA的描述可以看出,BDA技术与工具在情报领域内的应用将会非常广泛,可用于情报获取、融合、分发与共享(即构建情报网络)等诸多情报处理环节。著名的SQL数据库开发公司Objectivi-ty所开发的Objectivity/DB、InfiniteGraph(IG)等大数据分析工具是典型的可用于情报领域的工具,下面主要以这两种BDA工具为例介绍BDA技术在多源情报融合以及对象关系分析过程中的应用情况。BDA用于多源情报融合的主要任务是通过对海量、多源、多类型数据(如文本、图片、视频、话音等)进行相关,将其转换为用户所需的各类专用情报(如通信情报(COMINT)、电子情报(ELINT)、雷达情报(RADINT)、遥测情报(TELINT)等)。Objectivity/DB大数据分析工具在美空军网络中心协同目标瞄准(NCCT)项目中的应用场景。在机器到机器(M2M)接口的支持下,Objectivity/DB实现了自动多源情报融合。该工具在多源情报融合方面主要解决的问题包括复杂数据索引与搜索、多源情报集成、异构数据库联合等。IG数据库的构建基于一种高度可扩展的分布式数据库体系结构,其中,数据和数据处理在网络中都采用分布式结构。单个图数据库可以进行分割,并分布在多个磁盘卷和机器中,这样即可实现跨机器边界的数据查询。同样的数据库客户端可以通过本地访问或通过本地网络访问图数据库。相关模块功能如下所述:(1)锁定服务器负责处理来自数据库应用程序的数据库读写锁定/解锁请求,即负责整个数据库访问管理。与开源数据库访问不同,对IG数据库的访问在建立数据库实例时不受控制,而是在事务级进行控制。(2)每台装有数据库的机器中海有一个单独的数据服务器进程,这些进程可通过本地或远程方式来访问磁盘卷上的数据。(3)数据服务器负责处理来自分布式图数据库的远程数据库应用程序请求。BDA相关理论、技术、工具其实并非全新,其应用前景非常广阔。尤其是在情报领域内的应用,其前景更是一日千里、势不可当。当然,BDA在情报领域中的应用仍有很多具体的理论、技术层面问题尚未解决。如,在赛博战领域如何利用BDA实现赛博态势感知、在电子战领域如何利用BDA实现有源与无源情报的分类与融合等。此外随BDA而来的诸多新类型情报也有待进一步研究,如移动情报、云情报、社会情报、大数据情报等。“大数据”的影响,增加了对信息管理专家的需求,甲骨文、IBM、微软和SAP花了超过15亿美元的在软件智能数据管理和分析的专业公司。这个行业自身价值超过1000亿美元,增长近10%,每年两次,这大概是作为一个整体的软件业务的快速。大数据已经出现,因为我们生活在一个社会中有更多的东西。有46亿全球移动电话用户有1亿美元和20亿人访问互联网。基本上人们比以往任何时候都与数据或信息交互。1990年至2005年,全球超过1亿人进入中产阶级,这意味着越来越多的人,谁收益的这笔钱将成为反过来导致更多的识字信息的增长。思科公司预计,到2013年在互联网上流动的交通量将达到每年667艾字节。中国人口众多,互联网用户数在2013年已经超过5亿人,全球第一。海量的互联网用户创造了大规模的数据量。据预测到2015年全球有超过85%的财富500强企业将在大数据竞争中失去优势。我们认为这种发展趋势在国内同样不可避免,在未来的市场竞争中,能在第一时间从大量互联网数据中获取最有价值信息的企业才最具有优势。当前,大部分中国企业在数据基础系统架构和数据分析方面都面临着诸多挑战。根据产业信息网调查,目前国内大部分企业的系统架构在应对大量数据时均有扩展性差、资源利用率低、应用部署复杂、运营成本高和高能耗等问题。国内企业为适应大数据时代而做出大规模调整是一种必然,这为国内从事大数据相关业务的IT企业带来了极大市场需求。
本文标题:大数据分析及海量油田数据管理技术
链接地址:https://www.777doc.com/doc-2511848 .html