您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 第2章-云计算与大数据的相关技术(楷体)54
云计算与大数据技术人民邮电出版社王鹏黄焱安俊秀张逸琴编著2019/8/1并行计算实验室第1章云计算与大数据基础第2章云计算与大数据的相关技术第3章虚拟化技术第4章集群系统基础第5章MPI—面向计算第6章Hadoop—分布式大数据系统第7章HPCC—面向数据的高性能计算集群系统第8章Storm—基于拓扑的流数据实时计算系统第9章服务器与数据中心第10章云计算大数据仿真技术第2章云计算与大数据的相关技术《云计算与大数据技术》2019/8/1并行计算实验室2.1云计算与大数据2.2云计算与物联网2.3一致性哈希算法—2.3.1一致性哈希算法的基本原理—2.3.2一致性哈希算法中计算和存储位置的一致性2.4非关系型数据库—2.4.1从关系型数据库到非关系型数据库—2.4.2非关系型数据库的定义—2.4.3非关系型数据库的分类2.5集群高速通信标准InfiniBand2.6云计算大数据集群的自组织特性2019/8/1并行计算实验室2.1云计算与大数据云计算与大数据相比云计算更像是对一种新的技术模式的描述而不是对某一项技术的描述,而大数据则较为确切地与一些具体的技术相关联。—目前新出现的一些技术如Hadoop、HPCC、Storm都较为确切地与大数据相关,同时并行计算技术、分布式存储技术、数据挖掘技术这些传统的计算机学科在大数据条件下又再次萌发出生机,并在大数据时代找到了新的研究内容。2019/8/1并行计算实验室—大数据其实是对面向数据计算技术中对数据量的一个形象描述,通常也可以被称为海量数据。—云计算整合的资源主要是计算和存储资源,云计算技术的发展也清晰地呈现出两大主题—计算和数据。伴随这两大主题,出现了云计算和大数据这两个热门概念,任何概念的出现都不是偶然的,取决于当时的技术发展状况。—李国杰院士认为:“信息系统需要从数据围绕着处理器转改为处理能力围绕着数据转,将计算用于数据,而不是将数据用于计算”。2.1云计算与大数据2019/8/1并行计算实验室—海量的数据本身很难直接使用,只有通过处理的数据才能真正地成为有用的数据,因此云计算时代计算和数据两大主题可以进一步明确为数据和针对数据的计算,计算可以使海量的数据成为有用的信息,进而处理成为知识。—目前提到云计算时,有时将云存储作为单独的一项技术来对待,只是把网络化的存储笼统地称为云存储,事实上在面向数据的时代不管是出现了云计算的概念还是大数据的概念,存储都不是一个独立存在的系统。特别是在集群条件下,计算和存储都是分布式的,如何让计算“找”到自己需要处理的数据是云计算系统需要具有的核心功能。2.1云计算与大数据2019/8/1并行计算实验室—面向数据要求计算是面向数据的,那么数据的存储方式将会深刻地影响计算实现的方式。—在分布式系统中实现计算和数据有效融合从而提高数据处理能力,简化分布式程序设计难度,降低系统网络通信压力从而使系统能有效地面对大数据处理的机制称为计算和数据的协作机制。—在这种协作机制中计算如何找到数据并启动分布式处理任务的问题是需要重点研究的课题,这一问题被称为计算和数据的位置一致性问题。2.1云计算与大数据2019/8/1并行计算实验室—面向数据也可以更准确地称为“面向数据的计算”,面向数据要求系统的设计和架构是围绕数据为核心展开的,面向数据也是云计算系统的一个基本特征,而计算与数据的有效协作是面向数据的核心要求。—回顾计算机技术的发展历程,可以清晰地看到计算机技术从面向计算逐步转变到面向数据的过程。从面向计算到面向数据是技术发展的必然趋势,并不能把云计算的出现归功于任何的个人和企业。这一过程的描述如图2.1所示,该图从硬件、网络和云计算的演进过程等方面以时间为顺序进行了纵向和横向的对比。2.1云计算与大数据2019/8/1并行计算实验室—在计算机技术的早期由于硬件设备体积庞大,价格昂贵,这一阶段数据的产生还是“个别”人的工作。这个时期的数据生产者主要是科学家或军事部门,他们更关注计算机的计算能力,计算能力的高低决定了研究能力和一个国家军事能力的高低。195819601984199419952006200820092011麦卡锡发明LISP语言麦卡锡首次提出云计算理念SUN提出网络就是计算机并行计算网格计算Google提出云计算云计算进入中国第四范式大数据进入中国19461954196419691970198019861989199320022005电子管:ENIAC晶体管:TRADIC集成电路:IBM360ARPAnet大规模集成电路TCP/IP我国首封E-MailWWW发明第一个Web互联网发展移动互联网硬件技术和网络技术的发展面向数据技术发展变化趋势:(1)从面向计算到面向数据;(2)从硬件为核心到以网络为核心;(3)从集中到分散再到集中图2.1计算机技术向云计算的演进—1969年ARPANET的出现改变了整个计算机技术的发展历史,网络逐步成为推动技术发展的一个重要力量,1989年TimBerners-Lee发明的万维网改变了信息的交流方式,特别是高速移动通信网络技术的发展和成熟使现在数据的生产成为全球人的共同活动,人们生产数据不再是在固定时间和固定地点进行,而是随时随地都在产生数据。微博、博客、社交网、视频共享网站、即时通信等媒介随时都在生产着数据并被融入全球网络中。—相对而言由于这时数据量很小,数据在整个计算系统中的重要性并不突出。这时网络还没有出现,推动计算技术发展的主要动力是硬件的发展,这个时期是硬件的高速变革时期,硬件从电子管迅速发展到大规模集成电路。—从云计算之父JohnMcCarthy提出云计算的概念到大数据之父Gray等人提出科学研究的第四范式,时间已经跨越了半个世纪。以硬件为核心的时代也是面向计算的时代,那时数据的构成非常简单,数据之间基本没有关联性,物理学家只处理物理实验数据,生物学家只处理生物学数据,计算和数据之间的对应关系是非常简单和直接,这个时期研究计算和存储的协作机制并没有太大的实用价值。—到了以网络为核心的时代数据的构成变得非常复杂,数据来源多样化,不同数据之间存在大量的隐含关联性,这时计算所面对的数据变得非常复杂,如社会感知、微关系等应用将数据和复杂的人类社会运行相关联,由于人人都是数据的生产者,人们之间的社会关系和结构就被隐含到了所产生的数据之中。—数据的产生目前呈现出了:大众化、自动化、连续化、复杂化的趋势。云计算、大数据概念正是在这样的一个背景下出现的。这一时期的典型特征就是计算必须面向数据,数据是架构整个系统的核心要素,这就使计算和存储的协作机制研究成为需要重点关注的核心技术,计算能有效找到自己需要处理的数据,可以使系统能更高效地完成海量数据的处理和分析。—云计算和大数据这两个名词也可看作是描述了面向计算时代信息技术的两个方面,云计算侧重于描述资源和应用的网络化交付方法,大数据侧重于描述面向数据时代由于数据量巨大所带来的技术挑战。—信息技术领域提出的面向数据的概念同时也开始深刻地改变了科学研究的模式,2007年著名的数据库专家Gray提出了科学研究的第四范式。他认为利用海量的数据可以为科学研究和知识发现提供除经验、理论、计算外的第四种重要方法。科学研究的四个范式的发展历程也同样反映了从面向计算走向面向数据的过程。—2.1云计算与大数据2019/8/1并行计算实验室—如图2.2所示,人类早期知识的发现主要依赖于经验、观察和实验,需要的计算和产生的数据都是很少的。人类在这一时期对于宇宙的认识都是这样形成的,就像伽利略为了证明自由落体定理,是通过在比萨斜塔扔下两个大小不一的小球一样,人类在那个时代知识的获取方式是原始而朴素的。观测实验理论计算仿真数据计算萌芽面向计算面向数据图2.2科学研究四个范式的发展历程—当人类知识积累到一定的程度后,知识逐渐形成了理论体系,如牛顿力学体系、Maxwell的电磁场理论,人类可以利用这些理论体系去预测自然并获取新的知识,这时对计算和数据的需求已经在萌生,人类已可以依赖这些理论发现新的行星,如海王星、冥王星的发现不是通过观测而是通过计算得到。—计算机的出现为人类发现新的知识提供了重要的工具。这个时代正好对应于面向计算的时代,可以在某些具有完善理论体系领域利用计算机仿真计算来进行研究。这时计算机的作用主要是计算,例如人类利用仿真计算可以实现模拟核爆这样的复杂计算。—现在人类在一年内所产生的数据可能已经超过人类过去几千年产生的数据的总和,即使是复杂度为的数据处理方法在面对庞大的时都显得力不从心,人类逐步进入面向数据的时代。第四范式说明可以利用海量数据加上高速计算发现新的知识,计算和数据的关系在面向数据时代变得十分紧密,也使计算和数据的协作问题面临巨大的技术挑战。2.1云计算与大数据2019/8/1并行计算实验室2.2云计算与物联网—云计算和物联网在出现的时间上非常接近,以至于有一段时间云计算和物联网两个名词总是同时出现在各类媒体上。—物联网的出现部分得益于网络的发展,大量传感器数据的收集需要良好的网络环境,特别是部分图像数据的传输更是对网络的性能有较高的要求。—在物联网技术中传感器的大量使用使数据的生产实现自动化,数据生产的自动化也是推动当前大数据技术发展的动力之一。2019/8/1并行计算实验室—物联网的英文名称为“TheInternetofThings”,简称:IOT。物联网就是“物物相连的互联网”。—这有两层意思:第一,物联网的核心和基础仍然是互联网,是在互联网基础之上的延伸和扩展的一种网络;第二,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信。2.2云计算与物联网2019/8/1并行计算实验室—因此,物联网的定义是通过射频识别(RFID)装置、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。—明确的物联网概念最早是由美国麻省理工大学Auto-ID实验室在1999年提出的,最初是为了提高基于互联网流通领域信息化水平而设计的。—物联网这个概念可以认为对一类应用的称呼,物联网与云计算技术的关系从定义上讲是应用与平台的关系。2.2云计算与物联网2019/8/1并行计算实验室—物联网系统需要大量的存储资源来保存数据,同时也需要计算资源来处理和分析数据,当前我们所指的物联网传感器连接呈现出以下的特点:连接传感器种类多样;连接的传感器数量众多;连接的传感器地域广大。—这些特点都会导致物联网系统会在运行过程中产生大量的数据,物联网的出现使数据的产生实现自动化,大量的传感器数据不断地在各个监控点产生,特别是现在信息采样的空间密度和时间密度不断增加,视频信息的大量使用,这些因素也是目前导致大数据概念出现的原因之一。2.2云计算与物联网2019/8/1并行计算实验室—物联网的产业链可以细分为标识、感知、处理和信息传送4个环节,每个环节的关键技术分别为RFID、传感器、智能芯片和电信运营商的无线传输网络。—云计算的出现使物联网在互联网基础之上延伸和发展成为可能。物联网中的物,在云计算模式中,它相当于是带上传感器的云终端,与上网本、手机等终端功能相同。这也是物联网在云计算日渐成熟的今天,才能重新被激活的原因之一。
本文标题:第2章-云计算与大数据的相关技术(楷体)54
链接地址:https://www.777doc.com/doc-30163 .html