您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 第01章-大数据与云计算
云计算1/57西北农林科技大学云计算信息工程学院2云计算NorthwestA&FUniversity推荐资源教材云计算第三版电子工业出版社2015年参考教材虚拟化与云计算小组著.虚拟化与云计算,电子工业出版社,2009年.陆嘉恒,文继荣著.分布式系统及云计算概论.清华大学出版社,2013.TomWhite著曾大聃译.《Hadoop权威指南》,清华大学出版社,2015年.云计算3/57西北农林科技大学大数据与云计算第1章目录大数据时代云计算——大数据的计算云计算发展现状云计算实现机制云计算压倒性的成本优势云计算5/571.1大数据时代第一章大数据与云计算“大数据”(BigData)的搜索指数数据来源:百度指数“大数据”这个词从2012年才引起关注,之后搜索量便迅猛增长。为什么大数据这么受关注?云计算6/5730501612805408001200180079003500005000100001500020000250003000035000400002004200520062007200820092010201120152020(EB)(年份)全球数据总量变化图1.1大数据时代第一章大数据与云计算云计算7/57为什么全球数据量增长如此之快?云计算8/57一:数据产生方式的改变二:人类的活动越来越依赖数据1.人类的日常生活已经与数据密不可分2.科学研究进入了“数据科学”时代3.各行各业也越来越依赖大数据手段来开展工作1.1大数据时代第一章大数据与云计算云计算9/57何谓大数据?海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。定义10云计算11/571C4V多样(Variety)数据增长速度快,而且越新的数据价值越大,这就要求对数据的处理速度也要快。快速(Velocity)在成本可接受的条件下,通过快速采集、发现和分析,从大量、多种类别的数据中提取价值的体系架构。价值密度低(Value)复杂度(Complexity)数据量大(Volume)存储的数据量巨大,PB级别是常态,因而对其分析的计算量也大。数据的来源及格式多样,数据格式除了传统的结构化数据外,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容。对数据的处理和分析的难度大。1.1大数据时代第一章大数据与云计算目录大数据时代云计算——大数据的计算云计算发展现状云计算实现机制云计算压倒性的成本优势云计算13/57G=f(x)大数据与云计算的关系我们的目标云计算大数据1.2云计算——大数据的计算第一章大数据与云计算云计算14/57云计算是什么?“它起源于我们将互联网视为云的时候…我们不关心消息去往何处…云为我们屏蔽了复杂性”KevinMarks,Google“融合的云是对服务器,应用,数据,基础设施的复杂性和异构平台的简化抽象”Amazon’sCEOJeffBezos1.2云计算——大数据的计算第一章大数据与云计算云计算15/571.2云计算——大数据的计算第一章大数据与云计算云计算的发展路线并行计算集群计算网格计算云计算云计算16/571.2云计算——大数据的计算第一章大数据与云计算并行计算并行计算或称平行计算是相对于串行计算来说的。并行计算(ParallelComputing)是指同时使用多种计算资源解决计算问题的过程。为执行并行计算,计算资源应包括一台配有多处理机(并行处理)的计算机、一个与网络相连的计算机专有编号(?),或两者结合使用。并行计算的主要目的是快速解决大型且复杂的计算问题。并行计算可以划分成时间并行和空间并行。时间并行即流水线技术,空间并行使用多个处理器执行并发计算,当前研究的主要是空间的并行问题。以程序和算法设计人员的角度看,并行计算又可分为数据并行和任务并行。数据并行把大的任务化解成若干个相同的子任务,处理起来比任务并行简单。云计算17/57云计算18/571.2云计算——大数据的计算第一章大数据与云计算集群计算计算机集群将一组松散集成的计算机软件或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机,比如工作站或超级计算机性价比要高得多。根据组成集群系统的计算机之间体系结构是否相同,集群可分为同构与异构两种。集群计算机按功能和结构可以分为,高可用性集群(High-availability(HA)clusters)、负载均衡集群(Loadbalancingclusters)、高性能计算集群(High-performance(HPC)clusters)、网格计算(Gridcomputing)。云计算19/57(computing)云计算20/571.2云计算——大数据的计算第一章大数据与云计算分布式计算分布式计算这个研究领域,主要研究分散系统(Distributedsystem)如何进行计算。分散系统是一组计算机,通过计算机网络相互链接与通信后形成的系统。把需要进行大量计算的工程数据分区成小块,由多台计算机分别计算,在上传运算结果后,将结果统一合并得出数据结论的科学。云计算21/57云计算22/571.2云计算——大数据的计算第一章大数据与云计算并行计算与分布式计算的区别并行计算与分布式计算都是运用并行来获得更高性能,化大任务为小任务。简单说来,如果处理单元共享内存,就称为并行计算,反之就是分布式计算。也有人认为分布式计算是并行计算的一种特例。云计算23/571.2云计算——大数据的计算第一章大数据与云计算并行计算与分布式计算的区别并行计算与分布式计算都是运用并行来获得更高性能,化大任务为小任务。简单说来,如果处理单元共享内存,就称为并行计算,反之就是分布式计算。也有人认为分布式计算是并行计算的一种特例。分布式的任务包互相之间有独立性,上一个任务包的结果未返回或者是结果处理错误,对下一个任务包的处理几乎没有什么影响。因此,分布式的实时性要求不高,而且允许存在计算错误(因为每个计算任务给好几个参与者计算,上传结果到服务器后要比较结果,然后对结果差异大的进行验证。云计算24/571.2云计算——大数据的计算第一章大数据与云计算并行计算与分布式计算的区别并行计算与分布式计算都是运用并行来获得更高性能,化大任务为小任务。简单说来,如果处理单元共享内存,就称为并行计算,反之就是分布式计算。也有人认为分布式计算是并行计算的一种特例。并行程序并行处理的任务包之间有很大的联系,而且并行计算的每一个任务块都是必要的,没有浪费的分割的,就是每个任务包都要处理,而且计算结果相互影响,就要求每个的计算结果要绝对正确,而且在时间上要尽量做到同步,而分布式的很多任务块可以根本就不处理,有大量的无用数据块,所以说分布式计算的速度尽管很快,但是真正的“效率”是低之再低的,可能一直在寻找,但是永远都找不到,也可能一开始就找到了;而并行处理不同,它的任务包个数相对有限,在一个有限的时间应该是可能完成的。云计算25/571.2云计算——大数据的计算第一章大数据与云计算网格计算网格计算是分布式计算的一种,也是一种与集群计算非常相关的技术。如果我们说某项工作是分布式的,那么,参与这项工作的一定不只是一台计算机,而是一个计算机网络,显然这种“蚂蚁搬山”的方式将具有很强的数据处理能力。网格计算的实质就是组合与共享资源并确保系统安全。网格计算通过利用大量异构计算机的未用资源(CPU周期和磁盘存储),将其作为嵌入在分布式电信基础设施中的一个虚拟的计算机集群,为解决大规模的计算问题提供一个模型。网格计算的焦点放在支持跨管理域计算的能力,这使它与传统的计算机集群或传统的分布式计算相区别。网格计算的目标是解决对于任何单一的超级计算机来说仍然大得难以解决的问题,并同时保持解决多个较小的问题的灵活性。这样,网格计算就提供了一个多用户环境。云计算26/57云计算27/571.2云计算——大数据的计算第一章大数据与云计算云计算云计算,不只是计算等计算机概念,还有运营服务等概念了。它是分布式计算、并行计算和网格计算的发展,或者说是这些概念的商业实现。云计算不但包括分布式计算还包括分布式存储和分布式缓存。分布式存储又包括分布式文件存储和分布式数据存储。云计算28/57弹性能力虚拟化服务互联网多租户动态配置按需付费IaaSPaaSSaaS云计算的定义—wiki第一章大数据与云计算云计算29/57云计算的定义——NIST美国国家标准技术研究院云计算是一种模型,它可以实现随时随地,便捷地,随需应变地从可配置计算资源共享池中获取所需的资源(例如,网络、服务器、存储、应用、及服务),资源能够快速供应并释放,使管理资源的工作量和与服务提供商的交互减小到最低限度。云计算的基本特点是:随需应变的自助服务、无处不在的网络访问、资源共享池、快速而灵活、计量付费服务。广大用户依托互联网某些节点强大的信息资源、包括存储资源、计算资源、软件资源、数据资源,管理资源为己所用,强调需求驱动,用户主导,按需服务,即用即付,用完即散,不对用户集中控制,用户不关心服务者在什么地方。云计算的定义第一章大数据与云计算云计算长定义云计算短定义云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。云计算是通过网络按需提供可动态伸缩的廉价计算服务。云计算31/57将软件作为服务SaaS(SoftwareasaService)将平台作为服务PaaS(PlatformasaService)将基础设施作为服务IaaS(InfrastructureasaService)针对性更强,它将某些特定应用软件功能封装成服务如:SalesforceonlineCRM对资源的抽象层次更进一步,提供用户应用程序运行环境如:GoogleAppEngineMicrosoftWindowsAzure将硬件设备等基础资源封装成服务供用户使用如:AmazonEC2/S3云计算按服务类型大致分为三类:专用通用1.2云计算——大数据的计算第一章大数据与云计算云计算32/57服务模型与系统架构:SaaSPaaSIaaSNetworkH/WVirtualizationOSDatabaseMiddlewareApplicationManagement1.2云计算——大数据的计算第一章大数据与云计算云计算33/57部署模型:公有云社区云私有云混合云企业独立拥有或独立承租的云系统在特定社区内共享的云系统,如:由某公司及其合作伙伴共同承建并分享使用的云系统面向公众开放租售的大规模云系统由以上三种云系统中的两种以上的云系统共同配合而提供IT能力的混合型云系统1.2云计算——大数据的计算第一章大数据与云计算云计算34/57云计算的7个特点超大规模虚拟化高可靠性通用性高可伸缩性按需服务极其廉价1.2云计算——大数据的计算第一章大数据与云计算基本特征:目录大数据时代云计算——大数据的计算云计算发展现状云计算实现机制云计算压倒性的成本优势云计算36/57微软紧跟云计算步伐,推出了WindowsAzure操作系统国外云计算的先行者亚马逊的云计算称为AmazonWebServices(AWS)谷歌是最大的云计算技术的使用者云计算37/57率先在全球提供了弹性计算云EC2(ElasticComputingCloud)和简单存储服务S3(SimpleStorageSe
本文标题:第01章-大数据与云计算
链接地址:https://www.777doc.com/doc-1883152 .html