您好,欢迎访问三七文档
职脉互联AminZhao2008-08-27云计算简介内容提要云计算简介各厂商方案开源方案Hadoop应用案例:LinkedIn云计算What,Why,How•什么是云计算–What•为什么需要云计算-Why–大量的计算资源闲置–需要按照PeakLoad购买机器;专人维护企业内部的计算资源–性能、可靠性、可维护性等•如何实现–How–分布式计算,存储虚拟化CloudcomputingmeansInternet('Cloud')baseddevelopmentanduseofcomputertechnology('Computing').ItisastyleofcomputingwhereIT-relatedcapabilitiesareprovided“asaservice”,allowinguserstoaccesstechnology-enabledservicesinthecloudwithoutknowledgeof,expertisewith,orcontroloverthetechnologyinfrastructurethatsupportsthem.云计算与其前身的不同•前身–分布式处理(DistributedComputing)–并行处理(ParallelComputing)–网格计算(GridComputing)•需要用户先将并行算法写好,并且通过调度系统将作业分解到各个不同的物理节点进行,这个过程相对比较复杂•目的–都是为了让IT资源能够对用户透明,为了让IT资源能够达到更好的使用率。•云计算(CloudComputing)的不同–资源透明度的不同•将所有的计算资源集中起来,并由软件实现自动管理,无需人为参与–模式的不同•从古老的单台发电机模式转向了电厂集中供电的模式•计算能力如同水电、煤气一样传输•“云”端和“云”设备–商品化的不同•技术!=样品,样品!=产品,产品!=商品云计算各组件云计算的几种形式•软件即服务–SalesForce,GoogleApps•UtilitiesComputing–AmazonS3(SimpleStorageService)basedonEC2(ElasticComputeCloud)•网络服务–OpenAPI–OpenID•平台即服务–提供开发环境–GoogleAppEngine•MSP管理服务提供商–瑞星的云安全方案内容提要云计算简介各厂商方案开源方案Hadoop应用案例:LinkedIn各厂商方案-“世界上不过有5台真正的计算机”•Amazon–EC2•透过Xen的虚拟化技术,提供可弹性配置的虚拟机器,来执行企业所需的任何应用程序,并可动态增加虚拟机器的数量来应付突发的使用量需求•Google–AppEngine•GFS实现存储•BigTable实现结构化、半结构化数据存储•Map/Reduce实现任务的分解和结果的汇聚•Job管理器,管理工作的提交和触发•IBM–蓝云BlueCloud•基于IBMAlmaden研究中心(AlmadenResearchCenter)的云基础架构,包括Xen和PowerVM虚拟Linux操作系统映像以及Hadoop并行工作负载安排。•由IBMTivoli软件支持,通过管理服务器来确保基于需求的最佳性能。•中国云计算中心:无锡太湖各厂商方案(Cont.)•Microsoft–LiveMesh•“微软的云技术,将会涵盖了网络的云(Cloud),以及各种装置的端(Client)两个部分,完全不同于其它公司的云架构”•MassStorage•ServerServiceSymmetry–任何一个Server都可以变成Service。»现在的SharePoint、ExchangeServer、Xbox,在云都会提供对应的服务,像SharePointService、HostingExchangeService、XboxClientService等。–云开发工具•开发人员可以用同一套程序开发模式,来开发出PC环境、移动装置以及网络云服务的应用各厂商方案(Cont.)•Yahoo–参与Hadoop开发,是最大的贡献者–雇用了Hadoop的创始团队,DougCutting,并继续为开源项目做贡献–公司内部建立了1万个Linux节点的Hadoop集群系统,在其搜索和广告业务中大量应用•Sun–“网络就是计算机”–Hydrazine•包括一个网络环境、一个数据中心和其它基础设施组件,如Sun的JavaFX丰富互联网应用程序技术、Sun的GlassFish应用服务器、Sun企业服务总线、Sun目录服务器、MySQL、“廉价存储“和Sun的硬件各厂商技术对比(Cont.)-和Google、微软及Amazon、Yahoo提供的「公共云」(publiccloud)不同,IBM协助企业建置的云计算中心是一种私有云,拥有自己独立的安全及计价管理机制内容提要云计算简介各厂商方案开源方案Hadoop应用案例:LinkedInHadoop简介•什么是Hadoop––ApacheHadoopisafreeJavasoftwareframeworkthatsupportsdataintensivedistributedapplicationsrunningonlargeclustersofcommoditycomputers.Itenablesapplicationstoworkwiththousandsofnodesandpetabytesofdata.HadoopwasinspiredbyGoogle'sMapReduceandGoogleFileSystem(GFS)papers.•架构的2大核心设计–Map/Reduce•任务的分解与结果的汇总–HDFS•Hadoop分布式文件系统(HadoopDistributedFileSystem)•为分布式计算存储提供了底层支持。Hadoop–Map/Reduce•MapReduce–2个动词•“Map(展开)”就是将一个任务分解成为多个任务•“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果•Map前有Split,保证任务并行效率•Reduce前有Shuffle,提高Reduce的效率以及减小数据传输的压力Hadoop–HDFS•HDFS,分布式计算的存储基石•三个组成部分–NameNode•分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。•NameNode将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。–DataNode•文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode–Client•需要获取分布式文件系统文件的应用程序Hadoop–HDFS三个操作•文件写入–Client向NameNode发起文件写入的请求–NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息–Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中•文件读取–Client向NameNode发起文件读取的请求–NameNode返回文件存储的DataNode的信息–Client读取文件信息•文件Block复制–NameNode发现部分文件的Block不符合最小复制数或者部分DataNode失效–通知DataNode相互复制Block–DataNode开始直接相互复制Hadoop部署•一台Master,总管分布式数据和分解任务的执行,–负责NameNode的工作以及JobTracker的工作–JobTracker负责启动、跟踪和调度各个Slave的任务执行•多台Slave,负责分布式数据存储以及任务的执行–每一台Slave通常具有DataNode的功能并负责TaskTracker的工作–TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务内容提要云计算简介各厂商方案开源方案Hadoop应用案例:LinkedIn应用案例:LinkedIn•LinkedIn–成立于2003年,250名员工,2006年盈利,年收入1亿美元,估值10亿美元•TheCloud–Cloud是整个架构最重要的部分,整个LinkedIn的网络图都缓存在Cloud里面–Cloud大小:22Mnodes,120Medges–12GBJVMHeap•Cache通过C++实现,用JNI调用–生产环境由40个服务器Instances构成–从硬盘重建Cloud一个实例需要8个小时–Cloud通过Databus实时更新–关闭时持久化到硬盘–将所有东西放在缓存里面是一种限制,但分割业务图将更麻烦–Sun提供了2TB的RAM
本文标题:19云计算
链接地址:https://www.777doc.com/doc-3322736 .html