您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据与云计算培训文件资料
大数据、云计算2012.10何为大?信息度量•1Byte=8Bit•1KB=1,024Bytes•1MB=1,024KB=1,048,576Bytes•1GB=1,024MB=1,048,576KB=1,073,741,824Bytes•1TB=1,024GB=1,048,576MB=1,099,511,627,776Bytes•1PB=1,024TB=1,048,576GB=1,125,899,906,842,624Bytes•1EB=1,024PB=1,048,576TB=1,152,921,504,606,846,976Bytes•1ZB=1,024EB=1,180,591,620,717,411,303,424Bytes•1YB=1,024ZB=1,208,925,819,614,629,174,706,176Bytes00.20.40.60.811.21.41.61.82008200920102011全球数据增长(单位:ZB)•Google每天要处理超过24PB的数据•Facebook每天更新的照片量超过1000万张•YouTube每月接待多达8亿的访客,平均每一秒钟就会有一段长度在一小时以上的视频上传•twitter上的信息量几乎每年翻一倍,截至2012年,每天都会发布超过4亿条微博数据都从哪里来?互联网企业:SNS、微博、视频网站、电子商务网站物联网、移动设备、终端中的商品、个人位置、传感器采集的数据联通、移动、电信等通信和互联网运营商天文望远镜拍摄的图像、视频数据、气象学里面的卫星云图数据表面张力vs万有引力量变导致质变•一个月吃一碗饭•一天吃一碗饭•一餐吃一碗饭•一个小时吃一碗饭•一分钟吃一碗饭•一秒吃一碗饭这么多数据要放哪里?怎样处理?不要问我从哪里来的“不知所云”•通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。服务特征用户只需要一台具备基本计算能力的计算设备以及一个有效的互联网连接,就可以随时随地使用该服务随时随地用户具备使用该服务的需求,但是并不具备独立提供该服务的经济或者技术条件低成本云计算平台提供计算能力(包括处理器、内存、存储、网络接口),但是并不关心用户的应用类型按需供应按量计费把计算能力像水和电一样提供给用户什么是云计算权威定义•Wiki定义:•云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模式。•美国国家标准与技术研究院(NIST)定义:•云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。Googleの野望“浏览器=操作系统”•向互联网迁移应用•向互联网迁移数据•向互联网迁移计算•向互联网迁移存储IaaS基础设施云(代表:亚马逊的S3)SaaS应用云(代表:salesforce的CRM)PaaS平台云(代表:GoogleAppEngine)私有云(数据中心–内部网)公共云(服务提供商–互连网)混合云(公共和私有)XX就是服务亚马逊IaaS应用案例:纽约时报16Google云计算SaaS提供在线“Word、Excel、PPT”提供在线MAP提供在线日历管理……软件终结者•可提供随需应用的客户关系管理(On-demandCRM)•允许客户与独立软件供应商定制并整合其产品,同时建立他们各自所需的应用软件•SalesforceCRM价格分别有5美元,17美元,65美元,125美元和250美元的不同版本云计算的演化电厂模式•利用电厂的规模效应,来降低电力的价格,并让用户使用起来更方便效用计算•1960年的计算设备的价格是非常高昂的,远非普通企业、学校和机构所能承受网格计算•如何把一个非常巨大的计算问题切分成许多小块,然后分配给许多普通的PC来处理云计算•需求有了一定的规模,技术也已经成熟2006年8月9日GoogleCEO埃里克·施密特(EricSchmidt)在搜索引擎大会(SESSanJose2006)首次提出“云计算”(CloudComputing)的概念。•1996年,互联网上只有一万多个网站,现在有一亿六千万个•96年能上网的人基本上使用28.8或者33.6Kbps的猫,高速的56Kbps猫直到97年才出来•640×480才是主流,800×600是高端90年代199720131998年GoogolGoogle•1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000Google的BIDPROBLEM•海量数据•快速处理搜索排名Google的PageRank技术•PageRank并不计算直接链接的数量,而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票。•评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。•杜绝人工干预或操纵Google的海量数据怎样存储?摩尔定律正在走向终结…单芯片容纳晶体管的增加,对制造工艺提出要求CPU制造18nm技术,电子泄漏问题CPU主频已达3GHz时代,难以继续提高散热问题(发热太大,且难以驱散)功耗太高Google云计算应用MapReduce并行数据处理BigTable结构化数据表GFS分布式文件系统Chubby分布式锁1.GFS设计原则:机器失效不能视为异常现象能应付对大型/超大型文件处理支持大量用户同时访问2.GFS组成GFS集群:一个的Master和多个ChunkServer(块服务器)组成,并可以多客户端Client访问3.GFS设计要点每个文件拆成若干个64M文件块Chunk组成每个Chunk都由Master根据其创建时间指定ChunkHandle(64)文件块被保存在ChunkServer本地磁盘中缺省情况下3处热备份Chunk块文件GFSP2P传输协议多源文件传输协议MFTPtheMultisourceFileTransferProtocol•BitTorrent专门为大容量文件的共享而设计,它采用了一种像传销一样的通讯方式。P2PMapReduceGoogleMapReduce架构设计师JeffreyDean只要执行的简单计算,而将并行化、容错、数据分布、负载均衡的等杂乱细节放在一个库里,使并行编程时不必关心它们只需要编写两个函数:•//产生key,value映射关系•Map:(in_key,in_value)•//对相同的key进行归类处理•Reduce:(key,[value1,value2…])输入•HelloWorldByeWorld•HelloChinaByeChina•HelloSi-techByeSi-techMapReduce输出•Hello:3•Bye:3•China:2•World:2•Si-tech:2例子:单词统计•Map(key,value)•{•for(each‘world’invalue)•collect(‘world’,1);•……•}Reduce(key,value[]){intcount=0;for(eachwinvalue)count++;collect(key,count);……}第一步编码第二步分割分割HelloWorldByeWorldHelloChinaByeChinaHelloSi-techByeSi-techHelloWorldByeWorldHelloChinaByeChinaHelloSi-techByeSi-tech第三步Map(映射)HelloWorldByeWorldHello1World1Bye1World1HelloChinaByeChinaHello1China1Bye1China1HelloSi-techByeSi-techHello1Si-tech1Bye1Si-tech1第四步Fold(合并)Map•Hello1,World1,Bye1,World1•Hello1,China1,Bye1,China1•Hello1,Si-tech1,Bye1,Si-tech1Fold•Hello1,Hello1,Hello1•Bye1,Bye1,Bye1•World1,World1•China1,China1•Si-Tech1SiTech1第五步Reduce(归纳)Fold•Hello1,Hello1,Hello1•Bye1,Bye1,Bye1•World1,World1•China1,China1•Si-Tech1SiTech1Reduce•Hello3•Bye3•World2•China2•Si-Tech2大数据、云计算有什么用?•马云成功预测2008年经济危机•“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”其他云平台…中间层REST•方便和优雅地多租户•隔离性和安全性•降低成本并行处理•海量数据应用服务器分布式缓存•降低服务器压力•提高反应速度显示层HTMLJavaScriptCSSFlashSilverlight云计算平台存储型云平台•以数据存储为主计算型云平台•以数据处理为主综合云计算平台•计算和数据存储处理兼顾商业化云计算平台公司技术特性核心技术企业服务开发语言微软整合其所用软件及数据服务大型应用软件开发技术Azure平台.NETGoogle储存及运算水平扩充能力平行分散技术MapReduce,BigTable,GFSGoogleAppEngine,应用代管服务Python,JavaIBM整合其所有软件及硬件服务网格技术,分布式存储,动态负载虚拟资源池提供,企业云计算整合方案Oracle软硬件弹性虚拟平台Oracle的数据存储技术,Sun开源技术EC2上的Oracle数据库,OracleVM,SunxVMAmazon弹性虚拟平台虚拟化技术XenEC2、S3,SimpleDB、SQSSaleforce弹性可定制商务软件应用平台整合技术Force.com服务Java,APEXEMC信息存储系统及虚拟化技术Vmware的虚拟化技术,一流存储技术Atoms云存储系统,私有云解决方案阿里巴巴弹性可定制商务软件应用平台整合技术软件互联平台,云电子商务平台中国移动坚实的网络技术丰富的带宽资源底层集群部署技术,资源池虚拟技术,网络相关技术BigCloude-大云平台开源计算平台平台名称描述AbiCloud(Abiquo公司)AbiCloud是一款用于公司的开源的云计算[1]平台,使公司能够以快速、简单和可扩展的方式创建和管理大型、复杂的IT基础设施(包括虚拟服务器、网络、应用、存储设备等)Hadoop(Apache基金会)该计划是完全模仿Google体系架构做的一个开源项目,主要包括Map/Reduce和HDFS文件系统Eucalyptus项目(加利福尼亚大学)创建了一个使企业能够使用它们内部IT资源(包括服务器、存储系统、网络设备)的开源界面,来建立能够和AmazonEC2兼容的云MongoDB(10gen)MongoDB是一个高性能、开源、无模式的文档型数据库,它在许多场景下可用于替代传统的关系型数据库或键/值存储方式Enomalism弹性计算平台它提供了一个功能类似于EC2的云计算框架。Enomalism基于Linux,同时支持Xen和KernelVirtualMachine(KVM)。与其他纯IaaS解决方案不同的是,Enomalism提供了一个基于TurboGearsWeb应用程序框架和Python的软件栈Nimbus(网格中间件Globus)Nimbus面向科学计算需求,通过一组开源工具来实现基础设
本文标题:大数据与云计算培训文件资料
链接地址:https://www.777doc.com/doc-3515660 .html