您好,欢迎访问三七文档
ComputerScienceandApplication计算机科学与应用,2018,8(10),1503-1509PublishedOnlineOctober2018inHans.://doi.org/10.12677/csa.2018.810163文章引用:刘凯悦.大数据综述[J].计算机科学与应用,2018,8(10):1503-1509.DOI:10.12677/csa.2018.810163OverviewonBigDataKaiyueLiuChinaUniversityofMining&Technology(Beijing),BeijingReceived:Oct.1st,2018;accepted:Oct.11th,2018;published:Oct.19th,2018AbstractAsacurrentpopulartechnical,bigdatahasreceivedwideattentionfromeveryindustry.Inordertofurtherunderstandbigdata,thispapercomprehensivelydescribesbigdatafromthesixaspects:Thebasicsofbigdata,theoriginanddevelopmentstatusofbigdata,bigdataprocessing,bigdataapplication,bigdatachallengesandthefutureofbigdata.Thebasicsofbigdataincludethecon-ceptsanddifferencesbetweenbigdataandtraditionaldatabases,andthecharacteristicsofbigdata.Thebigdataprocessingincludesgeneratingandgettingdata,preprocessingdata,datasto-rage,analyzingandminingdata.Thisarticleisasystematicreviewofbigdata,andcanestablishagoodknowledgesystemforscholarswhoarenewtobigdata.KeywordsBigData,DataStorage,DataMining,DataVisualization,BigDataApplication大数据综述刘凯悦中国矿业大学(北京),北京收稿日期:2018年10月1日;录用日期:2018年10月11日;发布日期:2018年10月19日摘要大数据作为当今的热点技术,受到了各行各业的广泛关注。为了进一步认识大数据,本文从大数据的基础、大数据的起源和发展现状、大数据的处理流程、大数据的应用、大数据面临的挑战、大数据未来展望六个方面对大数据进行了综合性描述。其中大数据基础包括大数据和传统数据库的概念和区别、大数据的特性,处理流程包括数据生成和获取、数据预处理、数据存储、数据分析挖掘。本文是大数据的系统性综述,可以对初次接触大数据的学者建立了良好的知识体系。刘凯悦DOI:10.12677/csa.2018.8101631504计算机科学与应用关键词大数据,数据存储,数据挖掘,数据可视化,大数据应用Copyright©2018byauthorandHansPublishersInc.ThisworkislicensedundertheCreativeCommonsAttributionInternationalLicense(CCBY).引言近几年,由于移动互联网、物联网、云计算等技术的迅速发展,产生了海量的大规模数据。数据爆炸将人们带入了一个新的时代——大数据时代,如何存储、处理批量数据已经成为一个值得研究和讨论的问题。大数据技术的迅速发展推动了社会进步,国内外的许多甚至高校开展了新的一门学科即数据科学。大数据可以应用到诸多领域,人们通过大数据技术获取海量数据,并对数据进行处理和分析,得到许多对未来具有研究和改进意义的结果。大数据对现代社会的发展做出的贡献千千万万,本文主要针对大数据的概念、技术、应用等各方面进行综合性描述。2.大数据基础2.1.大数据和传统数据库数据库是按照数据结构来组织、存储和管理数据的仓库,在大数据这个概念出现以前,人们一直是应用数据库来存储和管理一些相对简单小型的数据。随着信息技术的发展和数据量的迅速增长,传统数据库在有些方面已经不能满足人们的需求,由此衍生出大数据这一概念。大数据又称为巨量数据、海量数据、大资料等,是指无法在一定时间范围内通过人工或计算机进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[1]。大数据和传统数据库有许多区别:首先,从数据规模和类型来看,传统数据库通常是以MB为单位且数据种类单一。但从大数据的数据单位很大,通常以GB、TB、PB甚至EB、ZB为单位,且数据种类繁多;其次,从模式和数据关系来看,传统数据库是先有模式再产生数据的。而大数据很难预先确定模式,甚至有些时候模式是会随着数据量的增加而改变的;最后,从处理对象上来看,传统数据库中的数据仅仅作为处理对象。但大数据中是要将数据作为一种资源来帮助分析其他领域的诸多问题的。2.2.大数据的特性大数据具有5V特性,即大量(Volume)、高速(Velocity)、多样(Variety)、价值密度低(Value)、真实性(Veracity)。Volume,主要体现在数据存储量大和数据增量大。数据规模庞大是大数据最主要的特性,而随着云计算等技术的发展,数据量也不断在增长,数据量已从GB、TB再到PB字节,甚至已经开始以EB和ZB字节来计量[2]。Velocity,高速性指的是数据的产生和处理速度快。数据可以通过社交媒体、定位系统等应用快速大量地产生。同时数据的处理速度也应加快,只有快速适时处理才可以更加有效的利用得到的数据。Variety,多样化主要体现在格式多和来源多两个方面。大数据产生的数据类型繁多,其中包括结构OpenAccess刘凯悦DOI:10.12677/csa.2018.8101631505计算机科学与应用化、半结构化和非结构化数据,甚至包括非完整和错误数据[2]。这是因为数据的来源多种多样,例如网页日志、电子邮件、传感器等。Value,价值密度低是指,虽然数据量庞大但其中具有利用价值的信息并不多。需要通过特定的技术进行处理和进一步挖掘,提取最有用的信息来加以利用[3]。Veracity,数据的真实性和质量决定数据带给我们的价值[3]。高质量的数据一定是具有真实性的,但有时真实的数据并不一定代表着高质量。我们可以通过一些大数据技术,在保证数据真实性的同时提高数据的质量,使数据能够更好的为我们所用。3.大数据起源和发展现状3.1.大数据的起源目前,IT界普遍认为大数据起源于谷歌的“三驾马车”:谷歌文件系统、MapReduce和BigTable。谷歌工程师在2003年至2006年先后公开发表了这几项核心技术的学术论文,引起了巨大反响,吸引了众多互联网公司的注意。在各大互联网公司的技术推动下,最终诞生了Hadoop系统,并在2008年6月处于相对稳定的状态。Hadoop发展过程中一个标志性的公司是Facebook,其在Hive上投入大量资源。Hadoop高扩展、高容错的优点很受业内欢迎,被广泛应用于离线分析场景。2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData这一概念。Facebook公司在2012年将重点转移至Presto,其查询速度很快,没有用到MapReduce,很快便超过了Hive。另外,伯克利大学AMP实验室开发了高速、灵活的Spark系统,Spark的兴起是Hadoop生态圈一个比较关键的转折点,在迭代计算和实时分析领域占领了绝对优势。3.2.大数据的发展现状随着大数据技术的不断发展,许多国家都认识到大数据对国家发展的重要性。以美国为首的多个国家先后发布了大数据的国家发展战略,联合国也发布了“全球脉搏”项目的重要成果——名为《大数据促发展:挑战与机遇》的大数据政务白皮书。美国政府投入了巨资到大数据的研究领域,将其作为重要的战略发展方向,并将大数据技术发展提升到国家安全和未来的发展战略的高度[4]。我国科技界与信息技术密切相关的产业领域对大数据技术与应用的关注程度正在逐渐增强,并引起了政府相关部门的重视。2013年3月在上海召开了题为“大数据技术与应用中的挑战性科学问题”双清论坛,并将“大数据技术与应用中的挑战性科学问题”列入2014年的项目指南中,拟以重点项目群的方式支持和推动相关领域的基础研究[2]。自2016年开始,国家信息中心已经连续3年利用大数据技术反映“一带一路”的建设进展和成效。除此之外,大数据技术目前已经在很多领域有了具体应用案例。2018年9月19日,国家信息发布中心在天津举办的2018年夏季达沃斯论坛上发布了《“一带一路”大数据报告2018》。该报告的发布,能够为国内外各界了解、参与“一带一路”建设提供更为丰富的信息。2018年9月20日,国家发展改革委国际合作中心(以下简称“国际合作中心”)举办第三期“国合党建讲堂”,邀请国家信息中心大数据发展部主任于施洋作题为“以大数据思维助力创新发展改革工作”的专题讲座。目前,大数据行业主要分为三类产业:数据服务产业、基础支撑产业、融合应用产业。数据服务产业是以大数据为核心资源,以大数据应用为主业开展商业经营的产业,包括数据交易、数据采集、数据应用服务、基于大数据的信息服务、数据增值服务等。基础支撑产业是指提供直接应用于大数据处理相关的软硬件、解决方案及其他工具的产业,例如提供大数据存储管理、大数据预处理软硬件、大数据计算、大数据可视化产品等。融合应用产业是指在业务应用中产生大数据,并与行业资源相结合开展商业经营的产业,例如政务大数据、金融大数据、交通大数据、工业大数据等。刘凯悦DOI:10.12677/csa.2018.8101631506计算机科学与应用4.大数据技术流程大数据技术的主要流程可以分为:数据生成和获取、数据预处理、数据存储、数据计算分析挖掘、数据结果应用。4.1.数据生成和获取数据的来源多种多样,可以来自物联网、互联网、各类传感器等。同时数据的方式也是多种多样的,可以是数字、文字、声音、图片、视频等。中国工程院李德毅院士认为:大数据的主要来源有三方面:自然界的大数据、生命和生物的大数据和社交大数据。自然界的大数据主要是机器与机器交互产生的数据,主要通过各类传感器来采集[4]。生命和生物的大数据主要研究基因组学、蛋白质组学、代谢组学等生物学数据。社交大数据主要来源于人类社会活动,而互联网通常为其载体。目前大数据的主要研究对象集中在社交数据和自然数据,同时生命和生物的大数据对医学方面的贡献也不容小视。4.2.数据预处理现实中收集到的真实数据通常都是不完整的脏数据,没有办法直接进行数据挖掘和处理。所以为了提高数据的质量,通常需要对获取到的数据进行预处理,也就是在主要的数据处理之前对数据做出的一些基本处理。数据预处理的内容主要有:数据审核、数据筛选、数据排序。数据审核主要审核数据的准确性、适用性、及时性、一致性。数据筛选是对审核过程中发现的错误进行纠正的过程,通常包括两方面内容:剔除不符合要求的数据、筛选出符合条件的数据。数据排序是按照一定的顺序把数据进行排列,以便于研究者进一步观察和分析。数据预处理的主要方法有数据清理、数据集成、数据变换、数据规约。数据清理的主要目的为格式标准化、清除异常数据、纠正错误。数据集成是将多个数据源中的数据结合起来统一
本文标题:大数据综述
链接地址:https://www.777doc.com/doc-6111016 .html