您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据技术与应用中的挑战性科学问题
92 中 国 科 学 基 金2014年·学科进展·大数据技术与应用中的挑战性科学问题∗王成红1∗∗陈伟能2张 军2宋 苏1鲁仁全3(1国家自然科学基金委员会信息科学部,北京10085;2中山大学超级计算学院,广州510006;3杭州电子科技大学自动化学院,杭州310018) ∗本文内容根据第89期双清论坛讨论内容整理。 ∗∗Email:wangch@nsfc.gov.cn本文于2013年12月10日收到.[摘 要] 本文基于国家自然科学基金委员会第89期双清论坛“大数据技术与应用中的挑战性科学问题”的研讨内容,分别就大数据获取、大数据存储与管理、大数据传输,大数据处理、分析与计算,以及大数据应用等议题进行了全面综述。在深入研讨大数据技术与应用的国内外发展动态和现状的基础上,凝练出了未来我国在大数据技术与应用领域急需关注和解决的9个重大科学问题,并结合我国具体情况,提出了与开展大数据技术与应用研究相关的若干政策和措施建议。[关键词] 大数据获取,大数据存储与管理,大数据传输,大数据处理、分析与计算,大数据应用大数据是人类进入信息化时代的产物和必然结果。“大数据发展的核心动力来源于人类测量、记录和分析世界的渴望”[1],而这种渴望又源于人类努力改善自身生存和生活状况的无尽追求。在人类社会发展进程中,人们观测自然现象、揭示和把握自然规律并进而用于改善自身生存和生活状况的活动从来都没有停止过。人类揭示和运用自然规律是从观测和记录自然现象开始的,而这种观测和记录的结果要么就是数据,要么可以通过某种方法转化为数据。人类把握和运用自然规律的能力越强,社会经济和科学技术就越发展;社会经济和科学技术越发展,人类揭示和运用自然规律的愿望和需求就越强烈,结果是获取和存储的观测数据就会越来越多。伴随着近代传感器、无线通信、计算机与互联网等技术的迅猛发展及在各个领域的广泛应用,人类获取数据的手段和途径越来越多,成本越来越低,速度越来越快,所获数据的种类、层次和尺度也越来越多样化,这就在广度、速度和深度三个方面催生了大数据时代的到来。1 开展大数据技术与应用研究的意义1.1 大数据的基本特征粗略地讲,大数据是指在可容忍的时间内无法用现有的信息技术和软硬件工具对其进行传输、存储、计算与应用等的数据集合[2]。与传统意义上的数据概念相比,大数据具有如下几个显著特征:(1)数据规模(Volume)不断扩大,数据量已从GB(109)、TB(1012)再到PB(1015)字节,甚至已开始以EB(1018)和ZB(1021)字节来计量。“到2013年,世界上存储的数据预计能达到1.2ZB字节。如果把这些数据全部记录在书中,这些书可以覆盖整个美国52次;如果将之存储在只读光盘上,这些光盘可以堆成5堆,每一堆都可以伸到月球上。[1]”(2)数据类型(Variety)繁多,包括结构化、半结构化和非结构化数据,甚至包括非完整和错误数据。现代互联网上半结构化和非结构化数据所占比例已达95%以上。(3)产生和增长速度(Velocity)快。美国国际数据公司(IDC)的研究报告称,到2020年全球的数据获取能力将增加50倍,用于数据存储的服务器将增加10倍[3]。当今世界,各种数据采集和存储设备每时每刻都在获取和存储大量新的数据。这些数据有时以高密度流的形式快速演变,具有很强的时效性,只有快速适时处理才可有效利用。(4)数据价值(Value)大,且可整合与多次利用。对于某一特定的、仅需少量数据的应用而言,大 第2期王成红等:大数据技术与应用中的挑战性科学问题93 数据呈现出价值密度低的特点,但对于众多潜在的应用而言,大数据整体往往蕴藏着巨大的价值。大数据时代的到来,撼动了世界的方方面面,从商业、科技、医疗卫生到政府、教育以及社会的其他各个领域。大数据技术和应用一方面对社会、经济和科技的发展带来了重要机遇,另一方面也对数据获取、存储、传输、计算以及应用提出了全新的挑战。开展大数据技术与应用研究,是时代发展的必然要求,具有无可估量的社会经济价值和巨大的科学意义。1.2 开展大数据研究的意义大数据已被广泛地认为是创造新价值的利器和引领下一轮经济增长的助推剂。开展大数据技术与应用研究的意义可主要概括为如下三个方面:(1)大数据已渗透到每一个行业和业务职能领域,已成为继物质和人力资源之后的另一种重要资源,将在社会经济发展过程中发挥不可替代的作用。大数据将逐渐成为现代社会基础设施的重要组成部分,就像公路、铁路、港口、水电和通信网络一样不可或缺[1]。资源、环境、经济、医疗卫生和国防建设等各种各样的大数据已经和物质资源、人力资源一样成为一个国家的重要战略资源,直接影响着国家和社会的安全、稳定与发展。大数据时代国家层面的竞争力将部分地体现为一个国家拥有的数据规模、活性以及解译和运用数据的能力。正是由于洞察到大数据无可估量的资源价值,美欧日等发达国家纷纷将大数据技术和应用提升为国家发展战略,旨在抢占大数据时代的战略制高点。2012年3月美国发布《大数据研究和发展倡议》,旨在利用大量复杂数据获取知识和提升洞见能力。2012年7月,日本推出《新ICT战略研究计划》,重点关注大数据应用,旨在提升日本竞争力。我国拥有众多的大数据资源,整合与利用的前景极为广阔,尽快将大数据技术与应用提升为国家发展战略具有更为重大的战略意义。(2)大数据的出现将部分地使科学研究从过去的假设驱动型转化为数据驱动型,从而将为科学技术的发展开辟一条新的途径。有相当数量的科研活动是按如下两条路径展开的:①假设事物各组成部分及其相互关系遵从某些规律,然后通过实验或数理逻辑的方法得到该事物的整体规律;②假设所研究的事物集合具有某种同质性且各事物在行为演化过程中互不影响(对应统计学上的独立同分布),随机地选择该集合中的少量事物进行观测并获取相关数据,然后进行数据处理和分析,进而得出该事物集合整体上所遵循的统计规律。第一种路径在没有已知规律可循或事物各组成部分之间的关系过于复杂而难于建立模型时失效;第二种路径在独立同分布假设不成立或采样的随机性得不到保证时失效。需要说明的是有相当多的事物(如人口普查)集合不满足独立同分布假设,且很难做到随机采样。“一旦采样过程中存在任何偏见,分析结果就会相去甚远[1]。”继第三种科研范式———“计算机模拟仿真”之后,已故图灵奖得主吉姆·格雷(JimGray)在2007年的最后一次演讲中将基于数据密集型的科学研究描述为“第四范式”,并指出面对各种最棘手的全球性挑战[4],在传统的理论方法因过于复杂而难以解决这些问题时,数据驱动的“第四范式”可能是最有希望解决这些难题的方法[5]。目前,各学科的发展已越来越离不开数据。除传统的模式识别、数据挖掘和机器学习外,基于数据的建模、预测、反演、决策与控制等已逐渐成为新的研究领域。大数据正在部分地改变着现有的科研模式,也在逐渐地改变着人们的思维定式。因此,面向复杂对象开展大数据处理方法及其应用研究具有重要的科学意义。(3)大数据及相关处理技术可转化为巨大的社会经济价值,被誉为“未来的新石油”。美英等发达国家在大数据应用方面已有许多成功的案例,例如:利用医疗卫生数据监视医疗体制的运行状况和民众健康的变化趋势,评估不同的医疗技术和治疗方案,并帮助政府选择和制定恰当的医疗改革方案;利用能源数据推动各相关部门实行节能减排方案;利用交通运输数据疏解交通拥堵;利用网络数据提供信息服务,分析舆情和保障国家安全等。据麦肯锡全球研究所预测,单就医疗卫生一个行业,有效的数据处理和利用每年可带来3000亿美元的经济价值[2]。2 国内外研究现状在科学研究领域,大数据的规模已经并正在迅速增长的事实同样震撼人心:斯坦福大学已经存储了350TB字节的物理实验数据,且每年增长10PB字节,预计到2015年将达到EB级字节;欧洲原子能研究机构的高能物理粒子加速器LHC的CMS检测器每秒产生320TB字节的检测数据;欧洲空间卫星中心每年获取30PB字节的空间信息数据;英国Sanger中心2002年就已拥有20TB字节的基因 94 中 国 科 学 基 金2014年数据,之后每年以4倍的速度增长,至今已达数十PB字节。面对极大的数据规模、复杂繁多的数据类型和某些因时效性约束需要快速处理的大数据集合,传统的数据管理、特别是数据处理和分析技术已远远不能满足各种应用需求。方法与技术上的局限性常常使人们处于数据到处“泛滥”而所获知识和价值甚少的困境。大数据具有大价值与其价值利用率低的现实引起了世界科技界的广泛关注和各发达国家政府的高度重视。随着大数据在世界各个领域的快速渗透和发展,2008年Nature出版了“BigData”专刊,从互联网、经济、超级计算、环境科学和生物医药等多个方面介绍了海量数据带来的一系列技术问题和挑战。自此,“大数据”开始进入学术界,逐渐成为备受关注的前沿研究课题。2011年,Science推出了数据处理专刊“Dealingwithdata”。该专刊的核心观点是:有效组织和利用数据将能够进一步发挥科学技术对社会发展的巨大推动作用。2012年4月,欧洲信息学与数学研究协会会刊ERCIMNews出版专刊“BigData”,重点讨论了大数据时代的数据管理与处理技术方面的关键问题。IEEE计算机学会决定,从2013年开始,每年举办一次IEEEBigData国际学术会议。Springer等科技出版社也于近年来相继创刊了大数据方面的国际杂志。上述情况表明,大数据已成为一门新兴科学并已受到科技界广泛重视。发达国家政府对大数据技术与应用研究给予了高度的重视和关注。美国于2012年3月发布了《大数据研究和发展倡议》,旨在提高人们从海量数据中提取知识的能力,加快科学发现与工程研发的步伐。2013年4月,美国众议院科学、空间和技术委员会以大数据为专题举行了听证会;多名资深教授和国家科学基金会的高官就如何促进海量数据的分析和利用、如何利用大数据技术激励创新、美国在大数据技术领域的创新能力和研究现状等问题在听证会上发言。2013年9月,美国国立卫生研究院(NIH)宣布,今后4年每年提供2400万美元,资助6至8个“从大数据到知识发现的卓越中心”(简称大数据卓越中心),以开发和推广大数据共享、集成、分析与管理的创新方法、软件和工具,从而帮助研究人员提升利用大规模复杂数据集的能力。这表明美国已把大数据技术与应用研究上升为国家战略,视为推动经济复苏的关键所在。欧盟专门设立了大数据研究征集项目(FP7Call8),旨在以大数据基础设施为先导,大幅度提高大数据分析算法和处理系统的效率。日本也推出了《活力ICT日本计划》,把大数据研究和应用技术视为国家发展战略。我国科技界及与信息技术密切相关的产业领域对大数据技术与应用的关注程度正在逐渐增强,并引起了政府相关部门的重视。中国科学院先后于2012年5月和2013年5月组织召开了题为“大数据科学与工程”和“数据科学与大数据的科学原理及发展前景”香山会议。国家自然科学基金委员会于2013年3月在上海召开了题为“大数据技术与应用中的挑战性科学问题”双清论坛,并将“大数据技术与应用中的挑战性科学问题”列入2014年的项目指南中,拟以重点项目群的方式支持和推动相关领域的基础研究。国家发展与改革委员会与地方政府主导的“智慧城市”计划已开始实施,部分省份已经建成或正在建设一批大数据中心。科技部已经部署了若干个大数据及与大数据密切相关的“973”计划和专项研究计划。近几年来,美欧将大数据研究的焦点主要集中在面向互联网的信息服务、产品推荐、舆情分析、国家安全以及公共卫生等领域的技术和应用层面。研究思路是摈弃随机采样的传统观点,采用“样本等于总体[1]”的策略对整个大数据集合进行计算和分析;研究目的在于发现隐藏在数据中的事物之间的相关关系而不是因果关系;研究方法仍是现有的数据挖掘、机器学习和模式识别等方法,并无显著的创新性突破;研究手段主要是分布式并行计算和云计算;研究成果主要体现在数据获取、集成、管理和系统构建、特别是成功应用并产生重大社会影响和经济效益。需要
本文标题:大数据技术与应用中的挑战性科学问题
链接地址:https://www.777doc.com/doc-5475052 .html