您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 经营企划 > 向黎洪-19209307-云存储的核心技术及发展状况
云存储的核心技术及发展状况姓名:向黎洪学号:19209307联系方式:15150558169在现在这个信息科学技术飞速发展得时代,无论是企业还是个人,都无时无刻不在享受着先进信息技术的成果。存储技术作为人们信息数据处理领域的一项重要技术,也时刻受到人们的关注。但随着社会的发展,人们所需求的数据量的不断增长,数据信息的处理技术也要随之不断提高。而在数据信息处理领域中的存储技术更是需要不断满足人们的需求。当今世界是已经来到了一个信息大爆炸的时代,至少在未来几年里,数据将以每年50%到60%的速度爆炸式增长,人们对数据的存储量及其存活期有了更高的要求。另外,企业的业务发展和合规性要求也要求企业延长数据的保留期。此外,现在的商业环境出现了越来越多的诉讼因素,这些都要求企业寻找一种全新的辅助存储方案。新建数据越来越多,而且企业有很多的原因必须保留数据,不管是为了满足合规性要求,还是IP的需要,或是为了重复使用它们或其他原因。总体上企业在长期保留数据方面通常有如下五个方面:1、归档2、本地数据保护(备份)3、远程数据保护(灾难恢复)4、合规性/诉讼5、一般长期数据保留这些方案虽然基本上能解决企业在长期保留数据方面的问题,但这些方案并不满足企业的经济效益,而且考虑到方案优化方面,这些方案对数据存储带来了极大的不便。随之我们发现了一种新的趋势,可以解决企业的存储之痛,那就是与数据存储有关的各种云服务。云存储作为一项大型数据存储服务,便是在企业业务发展和合规性要求下发展起来的。目前基于云存储概念的网盘市场已经具体了诸如网易、腾讯、Google、DBank(华为背景)、金山等诸多的知名企业。云存储成为网络经济下一个新的增长点似乎已经成为一种共识,知名企业的扎堆也使整个行业从一开始就面临着激烈的竞争。与传统的存储设备相比,云存储不仅仅是一个硬件,而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网、和客户端程序等多个部分组成的复杂系统。各部分以存储设备为核心,通过应用软件来对外提供数据存储和业务访问服务。可以说,云存储除在数据存储方面比较有竞争力外,还更加强调它本身的服务特性。云存储是在云计算(cloudcomputing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。云存储系统的结构模型由四个模块组成,其分别是:存储层、基础管理层、应用接口层和访问层。其中存储层是云存储最基础的部分。云存储中的存储设备往往数量庞大且分布地域很广,彼此之间通过广域网、互联网或者FC光纤通道网络连接在一起。存储设备之上是一个统一存储设备管理系统,可以实现存储设备的逻辑虚拟化管理、多链路冗余管理,以及硬件设备的状态监控和故障维护。云存储最核心的部分是基础管理层。基础管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问,同时,通过各种数据备份和容灾技术和措施可以保证云存储中的数据不会丢失,保证云存储自身的安全和稳定。而应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。比如视频监控应用平台、IPTV和视频点播应用平台、网络硬盘引用平台,远程数据备份应用平台等。再者就是访问层。任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。要完成这些部分的服务功能就需要相应的技术前提,包括集群技术、网格技术和分布式文件系统、CDN内容分发、P2P技术、数据压缩技术等。其中的核心技术就是基于云计算的编程模型、海量数据分布存储技术、海量数据管理技术、虚拟化技术、云计算平台管理技术。(1)编程模型MapReduce是Google开发的java、Python、C++编程模型,它是一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算。严格的编程模型使云计算环境下的编程十分简单。MapReduce模式的思想是将要执行的问题分解成Map(映射)和Reduce(化简)的方式,先通过Map程序将数据切割成不相关的区块,分配(调度)给大量计算机处理,达到分布式运算的效果,再通过Reduce程序将结果汇整输出。这样提高了数据的存储效率。(2)海量数据分布存储技术云存储系统由大量服务器组成,同时为大量用户服务,因此云存储系统采用分布式存储的方式存储数据,用冗余存储的方式保证数据的可靠性。云存储系统中广泛使用的数据存储系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。GFS即Google文件系统(GoogleFileSystem),是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。一个GFS集群由一个主服务器(master)和大量的块服务器(chunkserver)构成,并被许多客户(Client)访问。主服务器存储文件系统全部的元数据,包括名字空间、访问控制信息、从文件到块的映射以及块的当前位置。它也控制系统范围的活动,如块租约(lease)管理,孤儿块的垃圾收集,块服务器间的块迁移。主服务器定期通过HeartBeat消息与每一个块服务器通信,给块服务器传递指令并收集它的状态。GFS中的文件被切分为64MB的块并以冗余存储,每份数据在系统中保存3个以上备份。客户与主服务器的交换只限于对元数据的操作,所有数据方面的通信都直接和块服务器联系,这大大提高了系统的效率,防止主服务器负载过重。(3)海量数据管理技术在云存储系统中需要对分布的、海量的数据进行处理、分析,因此,数据管理技术必需能够高效的管理大量的数据。云存储系统中的数据管理技术主要是Google的BT(BigTable)数据管理技术和Hadoop团队开发的开源数据管理模块HBase。BT是建立在GFS,Scheduler,LockService和MapReduce之上的一个大型的分布式数据库,与传统的关系数据库不同,它把所有数据都作为对象来处理,形成一个巨大的表格,用来分布存储大规模结构化数据。Google的很多项目使用BT来存储数据,包括网页查询,Googleearth和Google金融。这些应用程序对BT的要求各不相同:数据大小(从URL到网页到卫星图象)不同,反应速度不同(从后端的大批处理到实时数据服务)。对于不同的要求,BT都成功的提供了灵活高效的服务。(4)虚拟化技术通过虚拟化技术可实现软件应用与底层硬件相隔离,它包括将单个资源划分成多个虚拟资源的裂分模式,也包括将多个资源整合成一个虚拟资源的聚合模式。虚拟化技术根据对象可分成存储虚拟化、计算虚拟化、网络虚拟化等,计算虚拟化又分为系统级虚拟化、应用级虚拟化和桌面虚拟化。(5)云计算平台管理技术云存储系统需要云计算平台进行数据管理,云存储系统需要云计算平台进行数据管理,云计算资源规模庞大,服务器数量众多并分布在不同的地点,同时运行着数百种应用,如何有效的管理这些服务器,保证整个系统提供不间断的服务是巨大的挑战。云计算系统的平台管理技术能够使大量的服务器协同工作,方便的进行业务部署和开通,快速发现和恢复系统故障,通过自动化、智能化的手段实现大规模系统的可靠运营。对于现代企业管理,很强调设备的整体拥有成本TCO,而不像过去只强调采购成本。而云存储技术管理的成本,可分为二种,一个是系统管理人力及能源需求的降低,一个是减少因系统停机造成的业务中断,所增加的管理成本。Google的服务器超过200万台,其中1/4用来作为存储,这么多的存储设备,如果采用传统的盘阵,管理是个大问题,更何况如果这些盘阵还是来自不同的厂商所生产,那管理难度就更无法想象了。为了解决这个问题,google才发展云存储这个概念。云存储技术针对数据重要性采取不同的拷贝策略,并且拷贝的文件存放在不同的服务器上,因此遭遇硬件损坏时,不管是硬盘或是服务器坏掉,服务始终不会终止,而且因为采用索引的架构,系统会自动将读写指令导引到其它存储节点,读写效能完全不受影响,管理人员只要更换硬件即可,数据也不会丢失,换上新的硬盘或是服务器后,系统会自动将文件拷贝回来,永远保持多份的文件,以避免数据的丢失。扩容时只要安装好存储节点,接上网络,新增加的容量便会自动合并到存储中,并且数据自动迁移到新存储节点,不需要做多余的设定,大量的降低了维护人员的工作量。在管理界面中可以看到每个存储节点及硬盘的使用状况、读写带宽,管理非常容易,不管使用哪家公司的服务器,都是同一个管理界面,一个管理人员可以轻松的管理几百台存储节点。随着数据量的大幅增加,数据被读取的机会越来越小,根据2008年Berkeley大学的一份研究报告显示,在过去十年,数据读/写的比率已经从4:1变为1:2,90%的数据从来没有被读取过。加上全球能源价格的高涨,面对这样的趋势,节能设计在今天变得非常重要。在数据中心,电力的成本很高,有些云存储技术会提供节能的功能,客户可以自行设定读写期限,超过期限没有被读写的文件,系统会将它迁移到节能区,节能区的服务器硬盘是spin-down的,这样可以节省大量的电力,减少电力损耗,就是减少二氧化碳排放量,既可以降低使用成本也是每一个地球公民的义务。云存储技术相对低廉的硬件采购成本及硬件冗余的架构,能在硬件损坏时,自动接管服务,并且不影响服务效能,数据也不会丢失,这样保证了服务的连续性,而节能的设计也对整体存储拥有成本的降低,产生了决定性的影响。开发云存储战略可能会很复杂,而且对安全性要求也很高。但是,从早期用户的使用经验来看,云存储的真正优势在于能为用户节约成本。分析师称采用基于云的服务可以节约IT支出,因为云计算采用共享的基础设施,并将特定成本由资本费用转为运行费用。同时,竞争会推动成本进一步降低,尤其大用户更能享受到此类优惠。例如,亚马逊表示,如果存储总量超过50TB,则每月每GB费用从15美分降至12美分,而且在6月,它的数据转移成本降低至每GB3美分。通过对云存储多方面的了解与分析,我们可以知道,云存储技术将不断的发展并遍布开来,云存储系统也必将成为存储系统的发展趋势,或许会像操作系统一样,在将来的发展过程中,它将不断的该进更新。
本文标题:向黎洪-19209307-云存储的核心技术及发展状况
链接地址:https://www.777doc.com/doc-533492 .html