您好,欢迎访问三七文档
大数据综述大数据作为互联网、物联网、移动计算、云计算之后IT产业又一次颠覆性的技术变革,正在重新定义社会管理与国家战略决策、企业管理决策、组织业务流程、个人决策的过程和方式。随着科技和社会的发展进步加上计算机和网络技术的兴起,社交网络、物联网、云计算以及多种传感器的广泛应用,使数量庞大,种类众多,时效性强为特征的数据的不断涌现,引发了数据规模的爆炸式增长[1]。国际数据公司(InternationalDataCorporation,IDC)研究报告称:2011年全球被创建和被复制的数据总量超过1.8ZB,且增长趋势遵循新摩尔定律(全球数据量大约每两年翻一番),预计2020年将达到35ZB。与此同时,数据复杂性也急剧增长,其多样性(多源、异构、多模态、不连贯语法或语义等)、低价值密度(大量不相关信息、知识“提纯”难度高)、实时性(数据需实时生成、存储、处理和分析)等复杂特征日益显著。预示着全球已然进入了“大数据”时代[2]。1.大数据国外研究现状1.1大数据相关理论的研究“大数据”这一术语从2008年开始在科技领域中出现,随之引起学术界的广泛研究兴趣。《Nature》与《Science》杂志分别出版专刊,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论大数据处理和应用专题。世界各国政府也高度重视大数据领域的研究和探索,并从国家战略的层面推出研究规划以应对其带来的挑战。虽然大数据研究已在全球范围内成为热点和焦点,但目前国内外大数据相关的研究仍然处于起步阶段,面向管理和决策的大数据研究与应用逐步兴起,研究理念、思路、方法和学术路线等方面的探索已经开始全面展开[3]。大数据蕴含着巨大的价值,对社会、经济、科学研究等各个方面都具有重要的战略意义。目前,大数据已经在政府公共管理、医疗服务、零售业、制造业,以及涉及个人的位置服务等领域得到了广泛应用,并产生了巨大的社会价值和产业空间。麦肯锡公司在一份研究报告中,根据西方产业数据预测,大数据的应用将能为欧洲发达国家的政府节省1000亿欧元以上的运作成本,使美国医疗保健行业的成本降低8%,约每年3000多亿美元,并使得零售商的营业利润率提高60%以上[4]。市场调研机构IDC的“数字宇宙”研究报告中则预测,大数据技术与服务市场在2015年将达到169亿美元,实现40%的年增长率,为IT与通信产业增长率的7倍[5]。大数据中蕴含的巨大商业价值、科学研究价值、社会管理与公共服务价值以及支撑科学决策的价值正在被认知与开发利用。1.2大数据关键技术进行的研究1.2.1批量数据处理技术数据中蕴含的宝贵价值成为人们存储和处理大数据的驱动力。Mayer-Schonberger在《大数据时代》一书中指出了大数据时代处理数据理念的三大转变,即要全体不要抽样,要效率不要绝对精确,要相关不要因果[6]。因此,大数据的处理对于当前存在的技术来说是一种极大的挑战。目前,人们对大数据的处理形式主要是对静态数据的批量处理、对在线数据的实时处理,以及对图数据的综合处理[7]。批量大数据来源:在互联网领域中,批量大数据来源主要包括:(a)社交网络:Facebook、新浪微博、微信等以人为核心的社交网络产生了大量的文本、图片、音视频等不同形式的数据。对这些数据的批量处理可以对社交网络进行分析,发现人与人之间隐含的关系或者他们中存在的社区,推荐朋友或者相关的主题,提升用户的体验。(b)电子商务:电子商务中产生大量的购买历史记录、商品评论、商品网页的访问次数和驻留时间等数据,通过批量分析这些数据,每个商铺可以精准地选择其热卖商品,从而提升商品销量;这些数据还能够分析出用户的消费行为,为客户推荐相关商品,以提升优质客户数量。(c)搜索引擎:Google、百度搜索等大型互联网搜索引擎将会产生大量的数据信息[8]。主要批量数据处理系统:由Google公司2003年研发的Google文件系统GFS和2004年研发的MapReduce编程模型以其Web环境下批量处理大规模海量数据的特有魅力,在学术界和工业界引起了很大反响。凭借其适合非结构处理、大规模并行处理和简单易用等优势,在互联网搜索和其他大数据分析技术领域取得重大进展,成为主流技术[9]。1.2.2流式数据处理技术通俗而言,流式数据是一个无穷的数据序列,序列中的每一个元素来源各异,格式复杂,序列往往包含时序特性,或者有其他的有序标签。数据流中的数据格式可以是结构化的、半结构化的甚至是无结构化的。因此流式数据的处理系统要有很好的容错性与异构数据分析能力,能够完成数据的动态清洗、格式处理等.并且,流式数据是活动的(用完即弃),随着时间的推移不断增长,这与传统的数据处理模型(存储→查询)不同,要求系统能够根据局部数据进行计算,保存数据流的动态属性。流式计算的应用场景:流式计算的应用场景较多,典型的有两类:(a)数据采集应用:数据采集应用通过主动获取海量的实时数据,及时地挖掘出有价值的信息。当前数据采集应用有日志采集、传感器采集、Web数据采集等。日志采集系统是针对各类平台不断产生的大量日志信息量身订做的处理系统,通过流式挖掘日志信息,达到动态提醒与预警功能。传感器采集系统(物联网)通过采集传感器的信息(通常包含时间、位置、环境和行为等内容),实时分析提供动态的信息展示,目前主要应用于智能交通、环境监控、灾难预警等。Web数据采集系统是利用网络爬虫程序抓取万维网上的内容,通过清洗、归类、分析并挖掘其数据价值。(b)金融银行业的应用:在金融银行领域的日常运营过程中会产生大量数据,这些数据的时效性往往较短,不仅有结构化数据,也会有半结构化和非结构化数据.通过对这些大数据的流式计算,发现隐含于其中的内在特征,可帮助金融银行进行实时决策。这与传统的商业智能(BI)分析不同,BI要求数据是静态的,通过数据挖掘技术,获得数据的价值.然而在瞬息万变的场景下,诸如股票期货市场,数据挖掘技术不能及时地响应需求,就需要借助流式数据处理的帮助。流式数据处理系统:流式数据处理已经在业界得到广泛的应用,典型的有Twitter的Storm,Facebook的Scribe,Linkedin的Samza,Cloudera的Flume,Apache的Nutch。1.2.3交互式数据处理技术在大数据环境下,数据量的急剧膨胀是交互式数据处理系统面临的首要问题。互联网领域。在互联网领域中,主要体现了人际间的交互.随着互联网技术的发展,传统的简单按需响应的人机互动已不能满足用户的需求,用户之间也需要交互,这种需求诞生了互联网中交互式数据处理的各种平台,如搜索引擎、电子邮件、即时通讯工具、社交网络、微博、博客以及电子商务等,用户可以在这些平台上获取或分享各种信息。此外,各种交互式问答平台,如百度的知道、新浪的爱问以及Yahoo!的知识堂等。由此可见,用户与平台之间的交互变得越来越容易,越来越频繁。这些平台中数据类型的多样性,使得传统的关系数据库不能满足交互式数据处理的实时性需求。目前,各大平台主要使用NoSQL类型的数据库系统来处理交互式的数据,如HBase[10]采用多维有续表的列式存储方式;MongoDB[11]采用JSON格式的数据嵌套存储方式。大多NoSQL数据库不提供Join等关系数据库的操作模式,以增加数据操作的实时性。交互式数据处理系统:交互式数据处理系统的典型代表系统是Berkeley的Spark系统和Google的Dremel系统。1.2.4图数据处理技术图由于自身的结构特征,可以很好地表示事物之间的关系,在近几年已成为各学科研究的热点。图中点和边的强关联性,需要图数据处理系统对图数据进行一系列的操作,包括图数据的存储、图查询、最短路径查询、关键字查询、图模式挖掘以及图数据的分类、聚类等.随着图中节点和边数的增多(达到几千万甚至上亿数),图数据处理的复杂性给图数据处理系统提出了严峻的挑战。图能很好地表示各实体之间的关系,因此,在各个领域得到了广泛的应用,如计算机领域、自然科学领域以及交通领域。当今世界上比较流行的3个典型的图数据处理系统,包括Google的Pregel系统,Neo4j系统和微软的Trinity系统。1.3大数据与云计算相结合的研究大数据分析是大数据研究领域的核心内容之一。然而云计算技术对大数据的分析具有得天独厚的优势。Google首席经济学家HalVarian教授指出:“数据正在变得无处不在、触手可及;而数据创造的真正价值,在于我们能否提供进一步的稀缺的附加服务。这种增值服务就是数据分析[。”数据的背后隐藏着信息,而信息之中蕴含着知识和智慧。大数据作为具有潜在价值的原始数据资产,只有通过深入分析才能挖掘出所需的信息、知识以及智慧.未来人们的决策将日益依赖于大数据分析的结果,而非单纯的经验和直觉。早在2009年,联合国就启动了“全球脉动计划”,拟通过云计算技术对大数据进行分析进而推动落后地区的发展,2011年5月,全球知名咨询公司麦肯锡(MckinseyandCompany)发布了《大数据:创新、竞争和生产力的下一个前沿领域》[12]报告,报告指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素[13]而2012年1月的世界经济论坛年会也把“云计算与大数据”作为重要议题之一。2012年3月,美国政府提出“大数据研究和发展倡议”,发起全球开放政府数据运动,把大数据的分析放在重要的战略位置.英国政府也将大数据分析技术作为重点发展的科技领域,在发展8类高新技术的6亿英镑投资中,大数据的注资占三成。2014年7月,欧盟委员会也呼吁各成员国积极发展大数据技术,并将采取具体措施发展大数据业务.例如建立大数据领域的公私合作关系;依托“地平线2020”科研规划,创建开放式数据孵化器;成立多个超级云计算中心;在成员国创建数据处理设施网络[14]。评述:国外在对大数据的行研究,主要集中在对大数据格式的转化、数据转移和大数据及时处理的问题上,但是由于大数据具有异构性和异质性的特点,所以学者需要设法提高大数据格式转化的效率和大数据的处理速率,目前国外学者主要从批量数据、流式数据、交互式数据和图数据处理技术进行研究,目的在于加速大数据的处理和计算能力从而有效的提高大数据的应用价值。2.大数据国内研究现状日前,IDC的首份关于大数据的报告《中国大数据技术与服务市场2012-2016年预测与分析》发布,该报告显示大数据市场规模将从2011年的7760万美元增长到2016年的6.17亿美元,未来5年的复合增长率达51.4%,市场规模增长近7倍。该报告指出中国已进入大数据时代。IDC中国负责商业分析软件市场研究的经理潘永花指出:“从全球看,大型的IT公司普遍增加了对大数据相关技术和产品的投资,同时也出现了不少新的关注大数据的小型公司。在中国,互联网巨头是率先使用大数据技术的用户,但他们主要基于开源软件自主开发大数据应用。电信和银行领域开始对大数据技术和服务产生浓厚的兴趣,将会从非关键应用开始尝试使用大数据解决方案。”在中国,移动互联网、电子商务、物联网以及社交媒体的快速发展已经使我们进入了大数据时代。潘永花认为,大数据市场不是由某些特定产品所驱动的,每种应用实例都需要不同层次的产品组合,包括服务器、存储、网络、软件和服务等,以获得更好的应用效果。2.1大数据相关理论研究在我国学术界和产业界也早已经开始高度重视大数据的研究和应用的工作,并纷纷启动了相应的研究计划。在政府层面,科技部“十二五”部署了关于物联网、云计算的相关专项。2012年,中国科学院院长白春礼院士呼吁中国应制定国家大数据战略。同年3月,科技部发布的《“十二五”国家科技计划信息技术领域2013年度备选项目征集指南》中的“先进计算”板块己明确提出“面向大数据的先进存储结构及关键技术”,国家“973计划”、“863计划”、国家自然科学基金等也分别设立了针对大数据的研究计划和专项。地方政府也对大数据战略高度重视,2013年上海市提出了《上海推进大数据研究与发展三年行动计划》,重庆市提出了《重庆市人民政府关于印发重庆市大数据行动计划的
本文标题:大数据综述
链接地址:https://www.777doc.com/doc-4215451 .html