您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据与云计算 (2)
FocusonChinaChinaHigh-TechIndustryPromotionSociety35SCIENCE&TECHNOLOGYFORDEVELOPMENT一、大数据的价值根据维基百科的定义,大数据(BigData)是用于数据集的一个术语,是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集。换句话说,在单一数据集里,数据规模超出目前常用软件工具在合理的可容忍时间里可以访问、管理、处理能力的数据集就是大数据。由于软件的能力是与时俱进的,因而大数据规模的定量界限就是随着技术进步而不断增大。大数据的规模大小是一个不断演化的指标,目前范围是指在一个单一的数据集从数十TB到十几PB级的数据规模。大数据逐渐有替代此前类似的海量数据(MassiveData)、大规模数据(LargeScaleData)、庞大数据(EnormousData)、巨量数据(Hugedata)等概念的趋势。实际上,不能简单地以数据规模来界定大数据,而要考虑满足用户需求的数据处理与分析的复杂程度。针对简单的用户需求(如关键字搜索),数据量为TB至PB级时可称为大数据;而针对复杂的用户需求(如数据挖掘),数据量为GB至TB级时即可称为大数据。存在数据量很大,计算任务简单的“小数据”;也存在数据量不大,但数据和计算复杂性高的“大数据”。大数据的特征可以用所谓的3个“V”表示:体量(Volume)、多样性(Variety)与速度(Velocity)。体量(Volume)是指聚合在一起供分析的数据量必须是非常庞大的。无所不在的移动设备、RFID、无线传感器每分每秒都在产生数据,数以亿计用户的互联网服务时时刻刻在产生巨量的交互。Web日志、RFID、传感网、社会网、社会数据、互联网文本文档、互联网搜索索引、呼叫记录、天文记录、大气科学、基因学、生物化学、大数据与云计算■ 何 清* 中国科学院计算技术研究所 北京 100190摘 要:大数据(BigData)这个概念近年来在越来越多的场合、被越来越多的人提及,并且经常和云计算联系在一起,云计算与大数据之间到底是什么关系成为热点话题。本专题报告包含以下四个方面内容:1.大数据的价值;2.大数据带来的挑战;3.大数据研究成果;4.云计算是大数据挖掘的主流方式。通过本报告阐述我们对大数据的理解,以及对大数据的价值的认识,探讨大数据处理与挖掘技术,论述以下观点:没有互联网就没有云计算模式,没有云计算模式就没有大数据处理技术,也就没有大数据挖掘技术。关键词:大数据 云计算 数据挖掘DOI:10.11842/chips.2014.01.006* 何清,中国科学院计算技术研究所研究员,博士生导师,2008年底开发完成了我国最早的基于云计算的并行数据挖掘平台,用于中国移动TB级实际数据的挖掘,实现了高性能、低成本的数据挖掘,先后主持完成多个有关数据挖掘的国家自然科学基金项目和863项目,提出了一系列有效的数据挖掘算法,组织开发的多个数据挖掘软件获得了软件著作权,并实际应用到电信、国家电网、信息安全、环保等多个行业,为企业带来了可观的经济效益和社会效益。关注中国ChinaHigh-TechIndustryPromotionSociety36科技促进发展★2014年第10卷第1期生物学、其他复杂的交叉学科的科学研究、军事监控、医学记录、照片摄像档案、视频档案、大规模的电子商务都是大数据的来源。在美国拥有1000名员工的公司有至少200TB的存储数据。例如沃尔玛每小时处理超过一百万客户交易,这些交易数据放到数据库估计超过2.5PB,这等价于美国国会图书馆所有书包含信息的167倍。多样性(Variety)是指数据类型的复杂性。如企业内部的信息主要包括联机交易数据和联机分析数据,这些数据一般都是结构化的静态、历史数据,可以通过关系型数据进行管理和访问,数据仓库是处理这些数据的常用方法。而来自于互联网上的数据,如用户创造的数据、社交网络中人与人交互的数据、物联网中的物理感知数据等,都是非结构化且动态变化,这些非结构化的数据占到整个数据的80%以上。在金融服务、政府管理、零售业会产生文本和数字数据,而制造业、医疗保健、新闻传媒等多产生多媒体数据。而速度(Velocity)则是指数据处理的速度必须满足实时性要求。像离线数据挖掘对处理时间的要求并不高,因此这类应用往往运行1、2天获得结果依然是可行的。但对于大数据的某些应用而言,必须要在1秒钟内形成答案,否则这些结果可能就因过时无效而失去其商业价值,例如实时路况导航、全球股价波动。这些特点也反映了大数据所潜藏的价值(Value),或许可以认为,这四个V就是大数据的基本特征。大数据无疑将给人类社会带来巨大的价值。科研机构可以通过大数据业务协助进行研究探索,如环境、资源、能源、气象、航天、生命等领域的探索。产业方面,大数据是现有产业升级与新产业诞生的重要推动力量。数据为王的大数据时代的到来,产业界需求与关注点发生了重大转变:企业关注的重点转向数据,计算机行业正在转变为真正的信息行业,从追求计算速度转变为关注大数据处理能力,软件也将从编程为主转变为以数据为中心。大数据正在影响企业商业模式的转变,对数据进行分析、优化正成为提升核心竞争力的有效方式。制药企业可借助大数据进行更多药品实验和分析。对于销售和服务可以提供消费者偏好与需求模式等方面的信息,帮助企业提高计划、决策和预测的准确性。当然大数据相关的产业链也必然带来巨大影响。首先,信息数据产生将会是第一个环节。其次,信息数据的大量产生需要存储。再次,信息数据需要采集整理。最后,信息数据的分析产出。这个环节是整个“大数据”产业链的最末端,也可能是最具技术含量和产业附加值的子行业。任何数据不经过分析这一环节,都无法落实到实际应用。在同样的数据面前,谁分析出的结果最快最有效,将决定谁才是真正的“大数据”产业领跑者。二、大数据带来的挑战1.描述与存储的挑战云计算环境下对大数据管理技术提出了新的挑战,主要反映在传统的关系数据库不能满足大数据处理的需求,如海量用户的高并发读写、海量数据的高效存储与访问、系统的高可用性与高扩展性等。随着数据规模的增大,原来高效的算法会变得低效,关系数据库事务处理要求的ACID特性,即原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)的开销巨大。目前的NoSQL运动正在通过放弃关系型数据库强大的SQL查询语言、事务的一致性以及范式的约束,或者采用键—值数据格式存储,以获得高效灵活的大数据处理能力。在业界,全球著名的Google、EMC、惠普、IBM、微软等互联网公司都已经意识到大数据存储的重要意义,研发了一批包含分布式数据缓存、分布式文件系统(GFS、HDFS)、非关系型NoSQL数据库(Amazon的Dynamo、ApacheCassandra、HBase)和新关系型NewSQL数据库等新技术。Gupta等人提出分析大数据过程中面临的挑战,包括静态数据与动态数据。对于静态的大数据,Gupta等人描述了面向交互数据服务环境的NoSQL系统以及基于MapReduce编程模式的面向大规模数据分析的系统。2.分析与理解的挑战大数据具有复杂性是不言而喻的,这种复杂性不仅体现在数据类型的多样性以及数据来源的广泛性上,更重要的是体现在分布的不确定性上。大数据集往往来源于对多源异构数据的融合和集成,具有超高维、稀疏、多模态等内在分布特征。这些内部特征导致现有机器FocusonChinaChinaHigh-TechIndustryPromotionSociety37SCIENCE&TECHNOLOGYFORDEVELOPMENT学习算法的性能和效率降低,导致对大数据的理解如同盲人摸象。3.挖掘与预测的挑战大数据中所蕴含的价值需要挖掘。大数据挖掘增加样本容易,降低算法复杂度难。很多传统的数据挖掘算法不一定能够适用于大数据环境,目前常用的数据挖掘的算法并不都能够被并行化,也就是说并非所有的算法都具有高度的并行性,并行不能降低算法复杂度,因此需要研究和开发新的适应大数据环境的算法。三、大数据研究成果1.大数据处理技术由于海量数据的大数据量和分布性的特点,使得传统的数据处理技术不适合于处理海量数据。这对海量数据的分布式并行处理技术提出了新的挑战,开始出现以MapReduce为代表的一系列工作。(1)数据并行处理MapReduce是2004年谷歌提出的一个用来并行处理大数据集的并行处理模型。而Hadoop是MapReduce的开源实现,是企业界及学术界共同关注的大数据处理技术。MapReduce并行编程模型具有强大的处理大规模数据的能力,因而是大数据处理的理想编程平台。Map-Reduce通过动态负载均衡及资源调配机制,可以根据需求的变化,对计算资源自动进行分配和管理,实现“弹性”的缩放和优化使用,对复杂问题采用分而治之的策略,把问题拆分后进行并行的运算,再将结果进行整合,从而得到最终的结果,表现出良好的扩展性、容错性和大规模并行处理的优势,在大数据管理和分析等方面得到广泛应用。针对并行编程模型易用性,出现了多种大数据处理高级查询语言,如FaceBook的Hive、Yahoo的Pig、Google的Sawzall等。这些高层查询语言通过解析器将查询语句解析为一系列的MapReduce作业在分布式文件系统上执行。与基本的MapReduce系统相比,高层查询语言更适合用户方便地进行大规模数据的并行处理。MapReduce及高级查询语言在应用中也暴露了在实时性和效率方面的不足,因此有很多研究针对它们进行优化提高效率。MapReduce作为典型的离线计算框架,无法适应于很多在线实时计算需求。目前在线计算主要基于两种模式研究大数据处理问题,一种基于关系型数据库研究提高其扩展性,增加查询通量来满足大规模数据处理需求;另一种基于新兴的NoSQL数据库,通过提高其查询能力丰富查询功能来满足现有大数据处理需求的应用。使用关系型数据库为底层存储引擎,上层对主键空间进行切片划分,数据库全局采用统一的哈希方式将请求分发到不同的存储节点以达到可以水平扩展要求,这种方案一般不能对上层提供原存储引擎的全部查询能力。OracleNoSQLDB、MySQLCluster、MyFOX即是典型系统,通过扩展NoSQL数据库的查询能力的方法来满足大规模数据处理需求的最典型的例子就是Google的BigTable及其一系列扩展系统。如何处理海量分布式的复杂数据也是目前的研究热点。GoogleMapReduce的设计初衷是分析WebGraph,但处理图数据常常需要大量的迭代运算,而MapReduce不是很适合处理这类复杂数据,已有的并行图算法库ParallelBGL或者CGMgraph又没有提供容错功能。于是Google开发了Pregel,一个可以在分布式通用服务器上处理PB级别图数据的大型同步处理应用,与之对应的开源项目Giraph也得到学术界的关注。(2)增量处理技术如何采用增量处理技术来设计高效的增量算法来解决分布式大数据的动态更新问题也是目前的研究热点。Google已经采用增量索引过滤器(Percolatorforincrementalindexing),而不是MapReduce来对频繁变化的数据集进行分析,使得的搜索结果返回速度越来越接近实时。通过只处理新增的、改动过的或删除的文档和使用二级指数来高效率建目录,返回查询结果。Percolator将文档处理延迟缩短了100倍,其索引Web新内容的速度比用MapReduce快很多。(3)流式计算技术目前流式计算是一个业界研究的热点,最近Twitter、LinkedIn等公司相继开源了流式计算系统Storm、Kafka等,加上Yahoo!之前开源的S4,流式计算研究在互联网领域持续升温。百度已经引入了流关注中国ChinaHigh-TechIndustryPromotionSociety38科技促进发展★2014年第10卷第1期计算系统DS
本文标题:大数据与云计算 (2)
链接地址:https://www.777doc.com/doc-6317479 .html