您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据处理:大数据概述
大数据处理大数据概述1参考资料2提纲大数据的定义与特征大数据的产生和应用大数据与云计算大数据与物联网大数据处理平台的架构大数据处理流程大数据处理面临的挑战大数据关键技术大数据处理的关键问题3大数据“大数据”是时下最火热的IT行业词汇早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,明确提出“数据就是财富”,将大数据称为“第三次浪潮的华彩乐章”。第一次浪潮:农业阶段,约1万年前开始第二次浪潮:工业阶段,17世纪末开始第三次浪潮:信息化阶段,20世纪50年代后期开始“如果说IBM的主机拉开了信息化革命的大幕,那么大数据才是第三次浪潮的华彩乐章。”大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。4什么是大数据数据量超过一定大小,导致常规软件无法在一个可接受的时间范围内完成对其进行抓取、管理和处理的工作的数据,例如:互联网上的网页数据社交网站上的用户交互数据物联网中产生的活动数据电信网络中的话单数据5大数据无处不在科学研究基因组LHC加速器地球与空间探测企业应用Email、文档、文件应用日志交易记录Web1.0数据文本图像视频Web2.0数据查询日志/点击流Twitter/Blog/SNSWiki6进入大数据时代2011年,中国互联网行业持有数据总量达到1.9EB(1EB字节相当于10亿GB)2011年,全球被创建和复制的数据总量为1.8ZB(1.8万亿GB)2013年,我们生成这样规模的信息量只需10分钟2015年,全球被创建和复制的数据总量将增长到8.2EB以上2020年,全球电子设备存储的数据将暴增30倍,达到35ZB7数据的度量8大数据的特征9大数据的特征-大容量Volume根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量,预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。10大数据的特征-时效性Velocity从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同。11大数据的特征-多样化Variety结构化数据(Structured)VS.非结构化数据(Unstructured)结构化数据是可以用二维表结构来表示,并可存储在数据库中的数据。银行交易数据、民航航班信息非结构化数据则是指那些无法通过预先定义的数据模型表述或无法存入关系型数据库表中的数据。无格式文本(网页、邮件等)、图像、音频、视频12大数据的特征-多样化Variety非结构化数据企业数据中,目前已有超过80%的数据是以非结构化的形式存在的。互联网领域,非结构化数据已占到整个数据量比例的75%以上非结构化数据年增长速度约为63%,远超过结构化数据增长速度32%。13大数据的特征-价值化Value价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的价值科学研究企业应用社会网络14舍恩伯格提出的大数据三大特征舍恩伯格的《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。思维变革商业变革管理变革在舍恩伯格看来,大数据一共具有三个特征:全样而非抽样;效率而非精确;相关而非因果。15大数据的产生人类社会的数据产生方式大致经历了3个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。运营式系统阶段数据库的出现使得数据管理的复杂度大大降低,数据往往伴随着一定的运营活动而产生并记录在数据库中的,这种数据的产生方式是被动的用户原创内容阶段数据爆发产生于Web2.0时代,而Web2.0的最重要标志就是用户原创内容以博客、微博为代表的新型社交网络的出现和快速发展以智能手机、平板电脑为代表的新型移动设备的出现这个阶段数据的产生方式是主动的感知式系统阶段感知式系统的广泛使用这个阶段数据的产生方式是自动的人类社会数据量第三次大的飞跃最终导致了大数据的产生16大数据的应用17大数据与大规模数据的区别从对象角度看,大数据是大小超出典型数据库软件采集、储存、管理和分析等能力的数据集合。大数据并非大量数据的简单无意义的堆积,数据量大并不意味着一定具有可观的利用前景。数据间是否具有结构性和关联性,是“大数据”与“大规模数据”的重要差别。从技术角度看,大数据技术是从各种各样类型的大数据中,快速获得有价值信息的技术及其集成。“大数据”这一概念中包含着对数据对象的处理行为。大数据技术是使大数据中所蕴含的价值得以发掘和展现的重要工具。从应用角度看,大数据是对特定的大数据集合、集成应用大数据技术、获得有价值信息的行为。正由于与具体应用紧密联系,甚至是一对一的联系,才使得“应用”成为大数据不可或缺的内涵之一。18从数据库到大数据池塘捕鱼(数据库)vs.大海捕鱼(大数据)数据规模数据库的处理对象通常以MB为基本单位,大数据则常常以GB,甚至是TB、PB为基本处理单位。数据类型数据库中数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。大数据包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据所占比例越来越大模式(Schema)和数据的关系传统的数据库都是先有模式,然后才会产生数据。大数据时代很多情况下,难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。19从数据库到大数据处理对象在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海”中,“鱼”除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在。也就是说传统数据库中数据仅作为处理对象。而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。处理工具捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以应对,也就是所谓的OneSizeFitsAll。但是在“大海”中,不可能存在一种渔网能够捕获所有的鱼类,也就是说NoSizeFitsAll。20典型的大数据的应用在医疗行业的应用在能源行业的应用在通信行业的应用在零售业的应用21科学研究的四种范式图灵奖获得者、著名数据库专家JimGray博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论和计算三种范式。当数据量不断增长和累积到今天,传统的三种范式在科学研究,特别是一些新的研究领域已经无法很好的发挥作用,需要有一种全新的第四种范式来指导新形势下的科学研究。基于这种考虑,JimGray提出了一种新的数据探索型研究方式,称之为科学研究的“第四种范式”(TheFourthParadigm)。22大数据与云计算23ServerStorageServerStorageApplicationPlatformInfrastructureVisualizationIaaS将基础设施(计算资源和存储)作为服务出租从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型。由于是计量服务,SaaS允许出租一个应用程序,并计时收费类似于IaaS,但是它包括操作系统和围绕特定应用的必需的服务SaaSPaaSSoftwareasaServicePlatformasaServiceInfrastructureasaServicedataStorageasaServiceSaaSPaaSIaaSdSaaSGoogleApps,Microsoft“Software+Services”IBMITfactory,GoogleAppEngine,Force.comAmazonEC2,IBMBlueCloud,SunGridNirvanixSDN,AmazonS3,CleversafedsNet大数据与云计算从整体上看,大数据与云计算是相辅相成的从技术上看,大数据根植于云计算云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce编程模型,都是大数据技术的基础。24大数据与云计算25大数据与云计算26大数据与物联网物联网就是“物物相连的互联网”。物联网通过智能感知、识别技术与普适计算、泛在网络的融合应用,被称为继计算机、互联网之后世界信息产业发展的第三次浪潮物联网架构可分为三层,包括感知层、网络层和应用层物联网,移动互联网再加上传统互联网,每天都在产生海量数据,而大数据又通过云计算的形式,将这些数据筛选处理分析,提取出有用的信息,这就是大数据分析。27数据处理平台的基础架构文件存储文件的快速增长;大规模小文件;多类型;元数据管理数据存储数据模型;并发读写;复杂查询数据计算问题分解;统一的编程模型平台管理协同工作;资源监控28大数据处理的流程29整个大数据的处理流程可以定义为:在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准进行统一存储,并利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,并利用恰当的方式将结果展现给终端用户。数据抽取与集成大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。这种复杂的数据环境给大数据的处理带来极大的挑战。处理大数据,首先必须对所需数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取时需要对数据进行清洗,保证数据质量及可信性。现有的数据抽取与集成方式可以大致分为以下四种类型:数据整合、数据联邦、数据传播和混合方法等。30数据分析传统的分析技术如数据挖掘、机器学习、统计分析等在大数据时代需要做出调整,因为这些技术在大数据时代面临一些新的挑战,主要有:数据量大并不一定意味着数据价值的增加,相反这往往意味着数据噪音的增多大数据时代的算法需要进行调整数据结果好坏的衡量31数据解释数据分析是大数据处理的核心,但是用户往往更关心结果的展示。如果分析的结果正确但是没有采用适当的解释方法,则所得到的结果很可能让用户难以理解,极端情况下甚至会误导用户。大数据时代的数据分析结果往往也是海量的,同时结果之间的关联关系极其复杂,采用传统的解释方法基本不可行可以考虑从下面两个方面提升数据解释能力:引入可视化技术让用户能够在一定程度上了解和参与具体的分析过程32大数据的三种状态静止数据(dataatrest)正使用数据(datainuse)动态数据(datainmotion)33大数据处理之“快”“动态数据”来得快动态数据有不同的产生模式。有的是burst模式,极端的例子如欧洲核子研究中心(CERN)的大型强子对撞机(LargeHadronCollider,简称LHC),工作状态下每秒产生PB级的数据。也有的动态数据是涓涓细流的模式,典型的如clickstream,日志,RFID数据,GPS位置信息,Twitter的firehose流数据等。“正使用数据”处理得快水处理系统可以从水库调出水来进行处理(“静止数据”转变为“正使用数据”),也可以直接对涌进来的新水流处理(“动态数据”转变为“正使用数据”)。这对应着两种处理范式:批处理和流处理。34批处理与流处理批处理:以“静止数据”为出发点,处理逻辑进来,算完后价值出去。流处理:计算逻辑不动,“动态数据”进来,计算完后价值留下,原始数据加入“静止数据”,或丢弃。35流处理流处理的处理模式将数据视为流,源源不断的数据组成了数据流。新的数据到来时就立刻处理并返回所需的结果。36批处理Google公司在2004年提出的MapReduce编程模型是具有代表性的批处理模式。37大数据关键技术Google的技术演化过程:38文件系统包括Google、微软、Facebook和淘宝在内的众多企业和学者从不同方面对满足大数据存储需求
本文标题:大数据处理:大数据概述
链接地址:https://www.777doc.com/doc-6444936 .html