您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据系统和分析技术综述20
软件学报ISSN1000-9825,CODENRUXUEWE-mail:jos@iscas.ac.cnJournalofSoftware,2014,25(9):1889−1908[doi:10.13328/j.cnki.jos.004674]©中国科学院软件研究所版权所有.Tel/Fax:+86-10-62562563大数据系统和分析技术综述∗程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰(中国科学院计算技术研究所网络数据科学与技术重点实验室,北京100190)通讯作者:靳小龙,E-mail:jinxiaolong@ict.ac.cn摘要:首先根据处理形式的不同,介绍了不同形式数据的特征和各自的典型应用场景以及相应的代表性处理系统,总结了大数据处理系统的三大发展趋势;随后,对系统支撑下的大数据分析技术和应用(包括深度学习、知识计算、社会计算与可视化等)进行了简要综述,总结了各种技术在大数据分析理解过程中的关键作用;最后梳理了大数据处理和分析面临的数据复杂性、计算复杂性和系统复杂性挑战,并逐一提出了可能的应对之策.关键词:大数据;数据分析;深度学习;知识计算;社会计算;可视化中图法分类号:TP301中文引用格式:程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述.软件学报,2014,25(9):1889−1908.:ChengXQ,JinXL,WangYZ,GUOJF,ZhangTY,LiGJ.Surveyonbigdatasystemandanalytictechnology.RuanJianXueBao/JournalofSoftware,2014,25(9):1240−1252(inChinese).,JINXiao-Long,WANGYuan-Zhuo,GUOJia-Feng,ZHANGTie-Ying,LIGuo-Jie(KeyLaboratoryofNetworkDataScienceandTechnology,InstituteofComputingTechnology,TheChineseAcademyofSciences,Beijing100190,China)Correspondingauthor:JINXiao-Long,E-mail:jinxiaolong@ict.ac.cnAbstract:Thispaperfirstintroducesthekeyfeaturesofbigdataindifferentprocessingmodesandtheirtypicalapplicationscenarios,aswellascorrespondingrepresentativeprocessingsystems.Itthensummarizesthreedevelopmenttrendsofbigdataprocessingsystems.Next,thepapergivesabriefsurveyonsystemsupportedanalytictechnologiesandapplications(includingdeeplearning,knowledgecomputing,socialcomputing,andvisualization),andsummarizesthekeyrolesofindividualtechnologiesinbigdataanalysisandunderstanding.Finally,thepaperlaysoutthreegrandchallengesofbigdataprocessingandanalysis,i.e.,datacomplexity,computationcomplexity,andsystemcomplexity.Potentialwaysfordealingwitheachcomplexityarealsodiscussed.Keywords:digdata;dataanalysis;deeplearning;knowledgecomputing;socialcomputing;visualization近几年,大数据迅速发展成为科技界和企业界甚至世界各国政府关注的热点.《Nature》和《Science》等相继出版专刊专门探讨大数据带来的机遇和挑战.著名管理咨询公司麦肯锡称:“数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来”[1].美国政府认为大数据是“未来的新石油”,一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制将成为国家间和企业间新的争夺焦点.大数据已成为社会各界关注的新焦点,“大数据时代”已然来临.什么是大数据,迄今并没有公认的定义.从宏观世界角度来讲,大数据是融合物理世界(physicalworld)、信息空间和人类社会(humansociety)三元世界的纽带,因为物理世界通过互联网、物联网等技术有了在信息空间∗基金项目:国家重点基础研究发展计划(973)(2014CB340401,2012CB316303);国家自然科学基金(61232010,61100175,61173008,61202214);北京市科技新星计划(Z121101002512063)收稿时间:2014-05-09;定稿时间:2014-07-011890JournalofSoftware软件学报Vol.25,No.9,September2014(cyberspace)中的大数据反映,而人类社会则借助人机界面、脑机界面、移动互联等手段在信息空间中产生自己的大数据映像[2,3].从信息产业角度来讲,大数据还是新一代信息技术产业的强劲推动力.所谓新一代信息技术产业本质上是构建在第三代平台上的信息产业,主要是指大数据、云计算、移动互联网(社交网络)等.IDC预测,到2020年第三代信息技术平台的市场规模将达到5.3万亿美元,而从2013年~2020年,IT产业90%的增长将由第三代信息技术平台驱动.从社会经济角度来讲,大数据是第二经济(secondeconomy[4])的核心内涵和关键支撑.第二经济的概念是由美国经济学家Auther在2011年提出的.他指出由处理器、链接器、传感器、执行器以及运行在其上的经济活动形成了人们熟知的物理经济(第一经济)之外的第二经济(不是虚拟经济).第二经济的本质是为第一经济附着一个“神经层”,使国民经济活动能够变得智能化,这是100年前电气化以来最大的变化.Auther还估算了第二经济的规模,他认为到2030年,第二经济的规模将逼近第一经济.而第二经济的主要支撑是大数据,因为大数据是永不枯竭并不断丰富的资源产业.借助于大数据,未来第二经济下的竞争将不再是劳动生产率而是知识生产率的竞争.相较于传统的数据,人们将大数据的特征总结为5个V,即体量大(volume)、速度快(velocity)、模态多(variety)、难辨识(veracity)和价值大密度低(value).但大数据的主要难点并不在于数据量大,因为通过对计算机系统的扩展可以在一定程度上缓解数据量大带来的挑战.其实,大数据真正难以对付的挑战来自于数据类型多样(variety)、要求及时响应(velocity)和数据的不确定性(veracity).因为数据类型多样使得一个应用往往既要处理结构化数据,同时还要处理文本、视频、语音等非结构化数据,这对现有数据库系统来说难以应付;在快速响应方面,在许多应用中时间就是利益.在不确定性方面,数据真伪难辨是大数据应用的最大挑战.追求高数据质量是对大数据的一项重要要求,最好的数据清理方法也难以消除某些数据固有的不可预测性.为了应对大数据带来的上述困难和挑战,以Google,Facebook,Linkedin,Microsoft等为代表的互联网企业近几年推出了各种不同类型的大数据处理系统.借助于新型的处理系统,深度学习、知识计算、可视化等大数据分析技术也得已迅速发展,已逐渐被广泛应用于不同的行业和领域.本文从系统支撑下的大数据分析角度入手,介绍了不同的大数据处理模式与代表性的处理系统,并对深度学习、知识计算等重要的大数据分析技术进行综述,最后指出大数据处理和分析所面临的3个核心挑战,并提出可能的解决思路.1大数据处理与系统大数据中蕴含的宝贵价值成为人们存储和处理大数据的驱动力.Mayer-Schönberger在《大数据时代》一书中指出了大数据时代处理数据理念的三大转变,即要全体不要抽样,要效率不要绝对精确,要相关不要因果[5].因此,海量数据的处理对于当前存在的技术来说是一种极大的挑战.目前,人们对大数据的处理形式主要是对静态数据的批量处理,对在线数据的实时处理[6],以及对图数据的综合处理.其中,在线数据的实时处理又包括对流式数据的处理和实时交互计算两种.本节将详细阐述上述4种数据形式的特征和各自的典型应用以及相应的代表性系统.1.1批量数据处理系统利用批量数据挖掘合适的模式,得出具体的含义,制定明智的决策,最终做出有效的应对措施实现业务目标是大数据批处理的首要任务.大数据的批量处理系统适用于先存储后计算,实时性要求不高,同时数据的准确性和全面性更为重要的场景.1.1.1批量数据的特征与典型应用(1)批量数据的特征批量数据通常具有3个特征.第一,数据体量巨大.数据从TB级别跃升到PB级别.数据是以静态的形式存储在硬盘中,很少进行更新,存储时间长,可以重复利用,然而这样大批量的数据不容易对其进行移动和备份.第二,数据精确度高.批量数据往往是从应用中沉淀下来的数据,因此精度相对较高,是企业资产的一部分宝贵财富.第三,数据价值密度低.以视频批量数据为例,在连续不断的监控过程中,可能有用的数据仅仅有一两秒.因此,需要通过合理的算法才能从批量的数据中抽取有用的价值.此外,批量数据处理往往比较耗时,而且不提供用户程学旗等:大数据系统和分析技术综述1891与系统的交互手段,所以当发现处理结果和预期或与以往的结果有很大差别时,会浪费很多时间.因此,批量数据处理适合大型的相对比较成熟的作业.(2)典型应用物联网、云计算、互联网以及车联网等无一不是大数据的重要来源,当前批量数据处理可以解决前述领域的诸多决策问题并发现新的洞察.因此,批量数据处理可以适用于较多的应用场景.本节主要选择互联网领域的应用、安全领域的应用以及公共服务领域的应用这3个典型应用场景加以介绍[7−12].在互联网领域中,批量数据处理的典型应用场景主要包括:(a)社交网络:Facebook、新浪微博、微信等以人为核心的社交网络产生了大量的文本、图片、音视频等不同形式的数据.对这些数据的批量处理可以对社交网络进行分析,发现人与人之间隐含的关系或者他们中存在的社区,推荐朋友或者相关的主题,提升用户的体验.(b)电子商务:电子商务中产生大量的购买历史记录、商品评论、商品网页的访问次数和驻留时间等数据,通过批量分析这些数据,每个商铺可以精准地选择其热卖商品,从而提升商品销量;这些数据还能够分析出用户的消费行为,为客户推荐相关商品,以提升优质客户数量.(c)搜索引擎:Google等大型互联网搜索引擎与Yahoo!的专门广告分析系统,通过对广告相关数据的批量处理用来改善广告的投放效果以提高用户的点击量.在安全领域中,批量数据主要用于欺诈检测和IT安全.在金融服务机构和情报机构中,欺诈检测一直都是关注的重点.通过对批量数据的处理,可对客户交易和现货异常进行判断,从而对可能存在欺诈行为提前预警.另一方面,企业通过处理机器产生的数据,识别
本文标题:大数据系统和分析技术综述20
链接地址:https://www.777doc.com/doc-28530 .html