您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > 大数据大科学大发现_大数据与科学发现国际研讨会综述_郭华东
2014年.第29卷.第4期合作与交流Exchange&Cooperation*修改稿收到日期:2014年6月24日【摘要】“大数据时代”的到来以及数据密集型知识发现方法论为科学研究提供了全新的机遇与挑战。基于此,国际科技数据委员会(CODATA)联合全球6个大型国际学术组织以及中科院遥感与数字地球所于2014年6月在北京举办了大数据与科学发现国际研讨会。本次研讨会对大数据及科学大数据的本质特征进行了分析,对大数据予大科学研究的知识发现开展了研讨,对大数据予大科学计划的应用提出了建议,并针对大数据服务科学计划使命提出了未来行动纲领。【关键词】大数据,科学大数据,科学发现,CODATADOI10.3969/j.issn.1000-3045.2014.04.014文/郭华东中国科学院遥感与数字地球研究所北京100094大数据大科学大发现——大数据与科学发现国际研讨会综述*1学术背景随着科学技术的飞速发展和社会需求的强大驱动,并随着数据生产方式的演化及数据的产生成本急速下降,人类产生的数据量正在呈指数级增长。由于数据规模的急剧膨胀,各行各业累积的数据量越来越巨大,数据类型也越来越繁多、越来越复杂,已经超越了传统数据管理系统和处理模式的能力范围,“大数据”概念近年开始广泛传播。2014年4月,国际数据公司(IDC)发布的第7份数字宇宙研究报告中指出,数据量将以超过每两年翻一番的速度持续增长,2013年全球创建和复制的数据总量已达4.4ZB,预计到2020年将增长至44ZB[1](图1)。我国拥有的全球数据量比例预计也将由2012年的图12006—2020年全球数据量增长趋势500院刊大数据与科学发现国际研讨会综述13%升至21%[2]。为了更好地理解大数据在科研领域的发展态势,以WebofScienceTM提供的科学引文检索扩展版(SCI-Expanded)和科技会议文献引文索引(CPCI-S)两个引文数据库为主,针对主题词“BigData”进行文献分析。分析发现截至2014年5月,全球共发表大数据研究文章1218篇,其中SCI-Expand⁃ed数据库收录548篇。图2展示了近年来大数据研究文献数量的变化趋势。2000年以前仅检索到近10篇文献,之后文献数量基本处于平稳慢速增长,2008年和2011年分别出现拐点。这与2008年Nature杂志推出的“大数据”专刊[3],以及Science杂志于2011年出版的“数据处理”专刊密切相关[4]。2012年大数据文献数量迅猛增加,2013年文献数量已骤增至741篇。这表明大数据研究正成为学术界的一个热点。图3列举了文献发表数量超过15篇的17个国家和地区,排名前3位的依次为美国(502篇)、中国(181篇)和英国(62篇)。“大数据”近年来在各领域蓬勃发展,在经济建设和社会发展等非科研领域已获广泛应用,对于普通百姓而言也不再是陌生的概念。可以说,大数据研究已成为科技、经济、社会等各领域的关注焦点,一些国家更是把大数据研究与产业上升至国家战略层面。不过,与其他新兴技术领域所面临的主要问题一样,大数据的基本概念及特点、大数据要解决的核心问题等,目前尚无统一的认识;大数据的获取、存储、处理、分析等诸多方面仍存在一定的争议。此外,人们了解大数据的根源还是因其在云计算、互联网和金融等领域的宣传与实践应用。相比较而言,大数据应用于科学研究的理论研究与实践却很薄弱,或者可以说还未真正得到重视。鉴于此,国际科学理事会(ICSU)下属跨学科主体、全球最大的科技数据学术组织国际科技数据委员会(CommitteeonDataforScienceandTechnology,CODATA)在其第59届执委会会议上决定组织召开“大数据与科学发现国际研讨会”,期望国际科技界共同挖掘科学大数据的能量与潜力,探索大数据服务大科图2“大数据”文献数量变化趋势图图3“大数据”发文量大于15篇以上的国家/地区分布5012014年.第29卷.第4期合作与交流Exchange&Cooperation127学,创造大发现的价值,向全球科技界传递科学大数据对全面推动科技、经济和社会发展的重要意义。2大数据与科学发现国际研讨会2014年6月8—9日,大数据与科学发现国际研讨会在北京举行。该会议由CODATA发起,联合世界数据系统(WorldDataSystem,WDS)、未来地球计划(FutureEarth)、灾害风险综合研究计划(IntegratedResearchonDisasterRisk,IRDR)、研究数据联盟(ResearchDataAlliance,RDA)、地球观测组织(GrouponEarthObservations,GEO)和国际数字地球学会(InternationalSocietyforDigitalEarth,ISDE)6个大型国际组织以及中科院遥感与数字地球所共同举办。研讨会主、协办机构汇聚了国际上数据研究和管理领域最重要的国际组织:CODATA是以发展数据科学、推动科技数据应用、促进科学研究的全球最大的科技数据国际学术组织;WDS的总体目标为确保对科学数据、数据服务、产品和信息的普遍和平等访问;FutureEarth的宗旨是研究全球环境可持续发展,是由ICSU等6个国际组织共同发起的为期10年的大型科学计划;IRDR是由IC-SU、国际社会科学理事会(ISSC)和联合国减灾战略(UNISDR)发起的一项为期10年的灾害风险综合研究计划;RDA是由美国、欧盟和澳大利亚组建的国际数据组织;GEO是目前国际地球观测领域规模最大、最具权威和影响力的政府间国际组织;ISDE是总部设在中国的数字地球国际学会,是全球唯一的数字地球组织。以上机构的联合,既体现了大数据的独特魅力,也彰显了本次会议的号召力和影响力。研讨会共设置6场学术报告分会。来自中国、美国、欧洲、日本、澳大利亚、印度等研究单位的学者分别做了各领域科学报告,报告内容涉及计算机科学、地球科学、生命科学及化学科学等。与会专家充分肯定了大数据在全球变化、数字地球、高能物理、计算生物学、环境保护、灾害风险等热点问题中发挥的重要作用,肯定了CODATA在推动数据科技发展中的积极贡献以及该研讨会的重要性与必要性,认为该研讨会将成为大数据科学发展史上的一座里程碑。同时,专家一致认为大数据是人类共有的资源,也是科技发展的重要财富,是科学研究的战略高地。作为大数据的重要组成部分,科学大数据正在使科学世界发生变化,驱动着科学研究进入数据密集型科学发现范式这一全新阶段,为此呼吁国际学术组织、各国政府政策制定与管理者、广大科技工作者共同努力,推动科学大数据在各科学领域的应用与发展。3大数据与科学大发现研讨会认为科学大数据是科学发现与知识创新的新引擎,它将改变人类生活及对世界的深层理解。从更为广泛的角度来看,“大数据”及其研究代表着一个信息时代、一个思维方式、一个技术潮流。科学大数据是与科学研究和工程实践相关的“大数据”。为了更好地研究科学大数据,本次研讨会的数据科学家梳理了其与商业大数据、互联网大数据等区别的本质属性和特点。整体看来,科学大数据具有如下的外部特征:(1)从数据内容来讲,科学大数据一般表征自然客观对象和过程;(2)从数据体量来讲,科学大数据在不同学科中存在较大的差异;(3)从数据速率来讲,科学大数据依学科不同,数据速率变化较大,包括高能物理、对地观测等领域的“快”数据和天体演变、地质过程、人类进化等领域的“慢”数据;(4)从获取手段来讲,科学大数据一般来自观测和实验的记录以及后续加工;(5)从分析手段来讲,科学大数据一般是与科学原理模型相结合,形成知识发现的方法,而完全依赖数据分析,抛开科学原理模型的领域与方法并不多见。通过归纳科学大数据的外部特征,其内部特征也变得相对清晰,主要概括为:(1)数据内容的不可重复性。正如哲学家赫拉克利特的名言“人不能两次踏进同一条河流”,对于一般自然与物理502院刊128的客观过程的观测内容具有一定的不可重复性;(2)数据的高度不确定性。由于采用观测和记录等获取手段以及非直接的观测方式和采样手段,导致科学大数据存在高度不确定性[5];(3)数据的高维特性。由于科学大数据面临数据源种类繁多、数学分析手段困难等原因,一般具有高维特性,导致维数灾难的形成;(4)数据分析的高度计算复杂性。由于数据的不确定性、高维特性,以及与科学数据分析相伴随的原理模型的复杂性,导致了科学数据处理的计算复杂性。因此可以说,科学大数据具有不同于一般大数据的显著特征,其内在机理及如何应用于知识发现值得深入研究。大数据服务大科学研究是一个重要方向。大科学一般是指多学科交叉的大型的基础科学研究项目,具有投资巨大、项目科研人员数目众多、拥有大型科研基础设施以及实验环境的特点。国际上较为著名的大科学计划包括大型强子对撞机、人类基因组计划、地球观测系统、全球变化研究等。大科学计划被认为是现代科学研究的一个成功组织模式,已在若干重大关键科学领域发挥了重要作用。大科学中的研究是与大数据紧密联系的。这是因为在一般意义上讲,大科学计划能够产生海量的实验数据或者观测数据。在高能物理领域,大型强子对撞机一年可产生15PB的数据。在人类基因测序方面,到2013年,全球范围内至少有30万个人类个体基因组被全部或部分测序,这意味着将产生30PB的序列数据,并需要至少150PB的相应存储和分析的计算能力。全球变化研究作为地球科学、环境科学、生命科学、社会科学和计算科学等多学科交叉的研究,其数据类型更是多种多样,且时间序列超长。预计到2020年,基于地球系统数值模式的全球变化预测资料的数据量将达50PB,遥感卫星数据也将达50PB,其他类型数据将达到2PB。这一数字预计到2030年将分别上升为185PB、150PB和5PB。在未来地球计划的八大交叉能力中,观测(Observing)、数据系统(Datasystems)、地球系统建模(EarthSystemModeling)同大数据密切相关。观测能力中,由卫星、航空、地面、深海等观测网络组成的地球观测系统提供大量的观测数据,具有体量大的特点;数据系统能力不但需要快速获取大量数据,并进行实时处理和分析能力,还需要通过元数据管理和合理的数据政策减少数据质量不确定性;地球系统建模涉及社会、科学模型、对地观测、经济等数据,类型极为丰富。IRDR通过四大核心项目,促进其科学目标的实现,在其实施中也与大数据紧密相关,如AIRDR项目涉及综合减灾研究的文献库,其具有较长的时间跨度,数据量巨大。RIA项目也包括海量个体和政府的决策行为和灾害信息传播相关的数据,其涵盖社会、经济、心理、减灾技术等方面,类型多样。FORIN项目将开展多区域、多灾种的案例经验分析,并通过快速建模实现对未来灾害的情景模拟。DATA项目在灾害数据的获取、存储、共享政策、标准制定的角度展开工作,有助于数据真实性的提升。地球观测组织的全球综合地球观测系统(GlobalEarthObservationSystemofSys-tems,GEOSS)中,数据包括长时间跨度的各类卫星观测数据、地面实测数据、各类应用产品库,体量巨大;其类型含有不同应用目的和地表目标的观测数据、服务产品、科学模型、文档材料等,类型丰富。GEOSS也特别注重元数据、数据质量控制、数据共享政策的工作,以保证数据真实性。同时GEOSS在快速获取对地观测数据的同时,大数据与科学发现国际研讨会综述5032014年.第29卷.第4期合作与交流Exchange&Cooperation129通过GEONETcast、GCI等系统实现各类数据的快速分析和应用。中科院遥感与数字地球所具有长时间系列的大量对地观测数据存档,数据总量超过450TB;3个遥感卫星地面站及两架遥感飞机可以快速获取不同时间、空间、地物对象的多源对地观测数据;数字地球科学平台具有快速处理分析海量空间数据和知识发现能力;对地观测数据共享平台开展共享元数据、数据质量控制、数据共享政策的工作。值得注意的是,大科学计划中有相当大的一部分科学研究属于反问题框架:其对象
本文标题:大数据大科学大发现_大数据与科学发现国际研讨会综述_郭华东
链接地址:https://www.777doc.com/doc-4948047 .html