您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 第11章_海量信息存储
第11章海量信息存储内容提要物联背景下如何适应海量信息存储的需求呢?随着物联网的发展,数据中心将成为解决海量数据存储的主要手段。本章将介绍典型的网络存储体系结构以及数据中心的基本概念。•第10章介绍了数据库管理系统的基本概念•数据库模型的发展•关系数据库的基本概念•利用关系代数写查询表达式•物联网数据管理的特点•本章重点介绍三种基本的网络存储体系结构,并以Google数据中心为例,介绍大规模数据中心的相关技术,最后简要开源分布式计算框架Hadoop。内容回顾11.1物联网对海量信息存储的需求11.2网络存储体系结构11.3数据中心信息存储的发展历程如何?物联网对海量信息存储的需求促使了哪些技术的发展?本章内容数据存储的发展历史甲骨文→纸质书籍→数字化存储物联网对海量信息存储的需求•全球信息总量迅猛增长–2007年产生的数据量为281EB(1EB=10亿GB)–物联网中对象的数量将庞大到以百亿为单位•物联网中的对象积极参与业务流程的需求–高强度计算需求–数据的持续在线可获取特性•导致了网络化存储和大型数据中心的诞生ValueexponentMetric3kBkilobyte6MBmegabyte9GBgigabyte12TBterabyte15PBpetabyte18EBexabyte21ZBzettabyte24YByottabyte11.1物联网对海量信息存储的需求11.2网络存储体系结构11.3数据中心三种基本的网络存储体系结构:直接附加存储,网络附加存储,存储区域网络,各有什么特点?本章内容直接附加存储直接附加存储(Direct-AttachedStorage,DAS)•将存储系统通过缆线直接与服务器或工作站相连•一般包括多个硬盘驱动器,与主机总线适配器通过电缆或光纤•在存储设备和主机总线适配器之间不存在其他网络设备•实现了计算机内存储到存储子系统的跨越网络附加存储网络附加存储(NetworkAttachedStorage,NAS)•文件级的计算机数据存储架构•计算机连接到一个仅为其它设备提供基于文件级数据存储服务的网络NAS与DAS的区别•DAS是一种对已有服务器的简单扩展,并没有真正实现网络互联。•NAS则是将网络作为存储实体,更容易实现文件级别的共享。•NAS性能上比DAS有所增强存储区域网络存储区域网络(StorageAreaNetwork,SAN)•通过网络方式连接存储设备和应用服务器的存储架构•由服务器、存储设备和SAN连接设备组成SAN的特点•存储共享•支持服务器从SAN直接启动三种网络存储结构的比较三种网络存储结构的比较DAS管理容易,结构简单;集中式体系结构,不能满足大规模数据访问的需求;存储资源利用率低,资源共享能力差,造成“信息孤岛”。NAS网络的存储实体,容易实现文件级别共享;性能严重依赖于网络流量,用户数过多,读写过频繁时性能受限。SAN存储管理简化,存储容量利用率提高;无直接文件级别的访问能力,但可在SAN基础上建立文件系统。11.1物联网对海量信息存储的需求11.2网络存储体系结构11.3数据中心什么是数据中心?典型的数据中心有哪些?数据中心的研究热点是什么?本章内容什么是数据中心?•维基百科:“数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。”•Google:“多功能的建筑物,能容纳多个服务器以及通信设备。这些设备被放置在一起是因为它们具有相同的对环境的要求以及物理安全上的需求,并且这样放置便于维护。”数据中心的起源与发展(Video)大型机微型机大规模数据中心(MegaDataCenter)数据中心的起源与发展大规模数据中心已经得到推广数据中心标准数据中心建设者面对的难题如何规划一个新的数据中心?怎样对数据中心进行升级?数据中心的标准对相关经验进行了总结ANSI/TIA/EIA-942(简称TIA-942):数据中心标准电信产业协会(TIA)提出美国国家标准学会(ANSI)批准数据中心标准:TIA-942选址:需要考虑多方面因素建设和运营成本应用需求政策优惠…布局:按功能区域划分入口室主分布区水平分布区水平分布区水平分布区设备分布区设备分布区设备分布区区段分布区水平缆线水平缆线水平缆线水平缆线主干缆线主干缆线……电信室办公室,控制中心,支持室主干缆线连接运营商连接运营商水平缆线计算机房功能区域组成数据中心标准:TIA-942(续)TIA-942还对缆线系统,可靠性分级,能源系统和降温系统等做了规定。缆线系统规格如何放置缆线能源系统外部电力供应电池组发电机机柜机柜机柜正面有小孔的地板背面背面正面正面背面有小孔的地板冷通道热通道降温系统降温设备架空地板冷通道与热通道典型数据中心:Google数据中心简介•全球共建有近40个大规模数据中心•单个数据中心需要至少50兆瓦功率,约等于一个小型城市所有家庭的用电量•独特的硬件设备:定制的以太网交换机、能源系统等•自行研发的软件技术:GoogleFileSystem、MapReduce、BigTable等数据中心的研究热点•2006年Google在数据中心项目上的花费为19亿美元,而2007年该项支出增加到24亿美元。•Google在俄勒冈州的数据中心有近100兆瓦的功率,满负荷运行时消耗的电力基本上和纽卡斯尔(Newcastle)一个城市所有家庭的用电量加起来一样多。研究热点:如何在保证服务质量的前提下降低成本?数据中心的成本构成基础设施部分包括能源系统、降温系统、各种防火设备、安保设备等。降低这一部分成本往往涉及到机械设备制造技术或政策优惠等因素,与计算机学科的关联程度相对较低。我们分别从服务器,网络设备,能源三个方面对造成高成本的原因和目前的解决方法进行简要介绍。服务器成本服务器网络设备能源服务器的实际利用效率较低•分配到各服务器的应用不能完全利用某些组件•对应用需求的预测比较难,无法做到按需分配•为了提高系统的可靠性,一般都留有冗余设备提高服务器利用率的关键在于及时应对需求的动态变化网络设备成本服务器网络设备能源主要来源•交换机、路由器、负载均衡设备•传统的数据中心使用树形结构,核心交换机和路由器构成流量瓶颈,且造价昂贵研究热点:新的数据中心网络结构以交换机为中心的多层树形结构:例如Fat-Tree以服务器为中心的互联结构:例如DCell能源成本服务器网络设备能源研究热点•降低服务器工作能耗降低同等性能设备能耗提高同等能耗设备性能可调整负载的服务器•减少降温系统能耗精细、精准的温度控制集装箱式模块化数据中心数据中心能耗构成GoogleFileSystemGFS的设计观念组件失效不再被认为是意外,而是被看做正常的现象GFS的文件非常巨大对文件的操作具有特定的模式应用程序和文件系统API的协同设计提高了整个系统的灵活性GoogleFileSystem设计架构ApplicationGFSclientGFSmasterFilenamespace/foo/barchunk2ef0GFSchunkserverLinuxfilesystemGFSchunkserverLinuxfilesystemInstructionstochunkserverChunkserverstate(filename,chunkindex)(chunkhandle,chunklocations)(chunkhandle,byterange).........DatamessageControlmessage一个GFS集群包含一个主服务器和多个块服务器,并被多个客户端访问。文件分成固定大小的“块”。每个块在创建时都由主服务器分配一个固定不变的64位句柄唯一标识。块服务器把块作为Linux文件存储在本地磁盘上,并根据指定的块句柄和字节范围对数据块进行读写操作。主服务器•维护所有文件系统的元数据,包括名字空间、访问控制信息、文件到块的映射信息以及块当前的位置。•控制其它系统级的活动。•周期性地与块服务器通信,以下达指令和收集状态。GFS客户端代码被嵌入到每个应用中。它实现了文件系统API,实现主服务器与块服务器的通信从而代表应用实现读写操作。客户端与服务器交互从而实现meta数据操作,但所有的数据操作都通过直接与块服务器交互而完成。GoogleFileSystem设计架构MapReduceMapReduce是一种针对超大规模数据集的编程模型和系统用MapReduce开发出的程序可在大量商用计算机集群上并行执行、处理计算机的失效以及调度计算机间的通信基本思想•用户写的两个程序:Map和Reduce•一个在计算机集群上执行多个程序实例的框架MapReduce程序的执行过程用户程序masterworkerworkerworker文件片段1文件片段2文件片段3workerworker输出文件1输出文件2输入文件Map阶段中间文件Reduce阶段输出文件BigTableBigTable是一种用来在海量数据规模下(例如包含以PB为单位的数据量和数千台廉价计算机的应用)管理结构化数据的分布式存储系统。应用•Google地球•网页索引•RSS阅读器•…BigTable每个BigTable都是一个稀疏的、分布式的多维有序图,按行键值、列键值和时间戳建立索引“html...”“html...”“html...”t6t5t3“contents:”“anchor:cnnsi.com”“CNN”t9“CNN.com”t8“anchor:my.look.ca”“com.cnn.”典型数据中心:Hadoop什么是Hadoop?•Apache开源组织的一个分布式计算开源框架•用于在大型集群的廉价服务器设备上运行数据密集型分布式应用程序•在早期实际上是Google文件系统与MapReduce分布式计算框架及相关IT基础服务的开源实现Hadoop包括多个子项目HDFS、MapReduce、HBase、Chukwa、Pig、ZooKeeper等HadoopDistributedFileSystem(HDFS)NamenodeClientMetadata(Name,replicas,...):/home/foo/data,3,...BlockopsMetadataopsReadDatanodeClientWriteWriteReplicationDatanodesRack1Rack2本章小结内容回顾本章介绍了三种基本的网络存储体系结构,并讨论了数据中心的基本概念,以Google数据中心和Hadoop为例,简要介绍了数据中心的相关技术,最后指出了数据中心的研究热点。重点掌握•了解物联网对海量数据存储的迫切需求。•重点掌握三种基本的网络存储体系结构(DAS,NAS,SAN)的基本概念以及各自的优缺点。本章小结重点掌握(续)•了解数据中心的概念,以Google数据中心为例,了解GFS,MapReduce,BigTable等技术的基本概念和特点。了解Hadoop分布式计算开源框架的特点。•掌握保证性能前提下降低数据中心成本的方法(服务器成本,网络设备成本,能源成本)。
本文标题:第11章_海量信息存储
链接地址:https://www.777doc.com/doc-4802251 .html