您好,欢迎访问三七文档
华中科技大学集群与网格计算湖北省重点实验室虚拟化存储系统华中科技大学集群与网格计算湖北省重点实验室信息存储系统教育部重点实验室2003年12月华中科技大学集群与网格计算湖北省重点实验室1.课题研究背景当今社会,信息正以超乎人们想象的速度增长,这对信息存储系统的容量和速度提出了空前的要求,由此引发的各种问题也随之而来。人们对信息数据日益广泛的需求导致存储系统的规模变得越来越庞大,管理越来越复杂,信息资源的爆炸性增长和管理能力的相对不足之间的矛盾日益尖锐。同时,这种信息资源的高速增长也对存储系统的可靠性和扩展性提出了挑战,信息资源的共享也显得越来越重要。在广域网中存在大量相互独立的数据孤岛,它们之间的数据资源不能共享,存储空间不能得到有效使用,数据的传输性能不足。存储虚拟化是指将用户看到的存储资源同具体的物理存储设备分隔开来,为存储用户提供统一的虚拟存储池。它是具体存储设备或存储系统的抽象,展示给用户一个逻辑视图,同时将应用程序和用户所需要的数据存储操作和具体的存储控制分离。存储虚拟化的任务首先是在多个物理存储设备或存储系统上创建一个抽象层,屏蔽复杂性,简化管理;其次是对存储资源进行优化。本课题研究了广域网范围和存储局域网(SAN)内部的存储虚拟化技术,以及支撑这种技术的文件系统。据统计,在企业网、局域网内部采用分布式存储技术的企业,其存储服务器、磁盘阵列甚至PC的存储空间利用率一般只达到50%,很多设备甚至还达不到,用户投资被大量浪费。由于文件服务器系统缺乏对并行I/O的支持,在大量用户访问或遭到恶意访问攻击时,系统将很快达到饱和而无法完成服务。通过存储虚拟化技术,不仅可以简化异构存储管理的复杂性,更可以高效充分地利用存储空间。通过在互连网络环境中引入分布式RAID功能,能够实现数据有效备份和容灾,提高信息的安全可靠性。通过将三级存储设备虚拟为二级存储,可以为用户提供快速海量存储。局域网的网络存储技术基本上可以分NAS和SAN两大类,而NAS和SAN又各有其优缺点。因此,提供一种技术将NAS和SAN统一整合起来是一个很有意义的研究课题。在由高速串行SCSI接口构建的SAN中,如果没有SAN管理软件的管理和调度,只要存在两台主机,就必然存在共享冲突的问题,存储设备就无法正常工作,光纤通道的优点就无法体现出来。相反,如果SAN管理软件管理调度得当,FC所具有的优势就能被充分发挥出来,在此基础上,还可在系统中增添如并行华中科技大学集群与网格计算湖北省重点实验室存储、负载平衡和数据迁移等功能,将使系统具有非常高的性能,全方位解决在信息高速公路中服务器存储系统的瓶颈问题。SAN的管理问题,已成为当前学术界和产业界最为重要的一个热点。但是,目前处于领先地位的Veritas、IBM和HP等国外著名公司的SAN管理软件产品,多采用静态/动态配置的分布式管理策略,即把存储网络中的存储设备集合成为磁盘池(diskpool)并划分为卷(Volume)空间后把各卷配置给SAN中的各台主机,卷只能被其拥有主机进行读写操作,不同主机之间不能直接共享同一卷中的数据,而只能通过传统文件服务器的C-S模式共享卷中的数据。采用配置文件进行分布式管理的SAN系统实现了存储设备和存储空间的共享,但还不具备文件共享和元数据共享的能力。随着客户对数据的依赖性迅猛增长,数据存储的可靠性和可用性正日益成为企业信息化进程中的一个关键环节。而文件系统作为连接底层物理磁盘与上层应用层之间的纽带,在信息存储中起着至关重要的作用,如何为文件系统提供故障恢复功能以及如何提高文件系统的可用性成了目前亟待解决的关键问题。在863项目“存储虚拟化及其文件系统研究”的资助下,我们对存储虚拟化及其相关技术进行了深入研究。经过两年的探索、研究和开发,本项目组成功研制了虚拟化存储系统。2.系统总体结构虚拟化存储系统可以将分布在互联网上的各种存储资源整合成具有统一逻辑视图的高性能存储系统,因此又成为GDSS(GlobalDistributedStorageSystem)系统。整个系统主要包括存储服务点SSP(StorageServicePoint)、全局命名服务器GNS(GlobalNameServer)、资源管理器RM(ResourceManager)、认证中心CA(CertificateAuthority)、客户端、存储代理SA(StorageAgent)以及可视化管理,如图1所示。SSP是整个系统的入口,对系统所有模块的访问都通过SSP,它主要提供FTP接口、CA接口、RM接口和GNS接口;系统中SSP的个数可以根据需要动态增加;SSP接管了传统方案中GNS的部分功能,减轻了GNS的负载,提高了系统的可扩展性。GNS负责系统的元数据管理,主要包括元数据操作接口、元数据容错系统、华中科技大学集群与网格计算湖北省重点实验室元数据搜索系统。RM包括资源调度模块和副本管理模块,其主要负责资源的申请和调度,同时提供透明的副本创建和选择策略。副本技术减少了文件数据访问延迟和带宽消耗,有助于改善负载平衡和可靠性。尤其是动态的副本创建机制,即自动的选择存储点以创建副本,并根据用户的特征而自动变化创建策略,为副本机制提供了更高的灵活性。客户端目前支持三种形式:通用FTP客户端、文件访问接口和特制客户端。用户通过系统提供的特制客户端,不但能够进行用户组操作,具有搜索和共享等功能,还可以获得更高性能的服务。CA包含证书管理系统,主要负责系统的安全性和数据的访问控制,同时它记录了用户的注册信息。SA屏蔽了存储资源的多样性,为系统提供统一存储访问接口,同时提供了文件操作方式和扩展的FTP操作方式,另外它对文件复制管理操作提供支持,为高效传输提供服务。同时SA这一级实现了局域存储资源的虚拟化,包括统一SAN和NAS,分布式的磁盘虚拟化、磁带库虚拟化和SAN内部共享管理等。CACACA权限认证服务GNSGNSGNS全局命名服务存储服务点SSPSSPSSP用户SASASASA存储代理12345控制通道数据通道StorageServicePointSSPCACertificateAuthorityGNSSAGlobalNameServerStorageAgent图1:虚拟化存储系统整体架构3.系统功能及关键技术GDSS系统的功能模块划分如图2所示。华中科技大学集群与网格计算湖北省重点实验室图2:系统功能模块图虚拟化存储系统客户端标准FTP客户端并行文件I/O库特定GDSS客户端命名服务器元数据服务模块元数据容错模块元数据搜索模块资源管理器资源调度模块副本管理模块信息服务器证书管理模块全局信息管理模块资源调度器副本管理模块广域网传输控制存储代理统一存储网LAN内部磁盘的虚拟化SAN内部传输控制并行文件系统支持技术存储服务点终端服务模块文件管理模块用户管理模块GNS通信模块RM通信模块系统监控SSP服务器监控模块GNS服务器监控模块RM服务器监控模块系统总控模块华中科技大学集群与网格计算湖北省重点实验室3.1多样的数据访问接口GDSS系统为终端用户提供形式多样的访问方式:1.标准FTP协议的服务。2.特定的GDSP协议的服务。3.兼容MPII/O文件读写接口。4.客户端的类Java文件I/O。5.GDSS图形客户端。终端用户的服务访问点是SSP。SSP采用协议分离的层次式结构,支持三方数据传输,并具有平台无关、语言无关的特性。3.2元数据管理和容错元数据管理涉及的关键研究内容包括:定义元数据信息,包括存储资源、文件、用户等信息;元数据服务器的扩展;基于用户的资源分配方案,系统提供基于用户的资源存储视图,实现逻辑文件名与物理文件位置的分离及映射功能;元数据信息与其他相关应用的兼容性;元数据信息的检索;元数据服务器性能的优化。采用LDAP目录服务器(DS)来进行元数据的组织管理。元数据是描述数据的数据,一旦丢失,影响全局,因此需要对其容错功能进行研究。元数据的数据量相对较小,所以本系统采用多副本对元数据进行容错。不同的用户有不同的权限,可以对其元数据要求不同的安全级别。对于安全级别比较高的元数据,可以分配较多的副本。3.3全局范围内的数据共享与访问控制虚拟化存储系统的一个首要目的是消除分布在广域范围内的多个信息孤岛,在更大范围内更好地实现数据共享,从而尽可能地使用户找到他想得到的数据。数据资源的共享要实现两个目标:a.数据在两个用户之间的交流共享;b.数据同时在多个用户之间的交流共享。由数据共享所引申出来的一个问题是数据的访问控制。不同的用户对共享的数据具有不同的访问权限,必须把用户限制在他所能操作的数据和所能实施的权限上。GDSS系统的物理存储资源以域的形式来划分。每个域都是一个自治的资源华中科技大学集群与网格计算湖北省重点实验室实体,可以设定自己的资源使用策略和对外服务提供策略。GDSS系统负责把这些物理资源实体组织和管理起来对终端用户提供统一的存储服务。这里,我们把GDSS系统的资源使用者称为终端用户。现实世界中的实体可以根据自己的资源需要和不同域所能提供的资源服务类型,来选定一个域进行注册。然后他就可以使用GDSS系统的数据资源和存储资源。GDSS系统引入一个新的概念,存储服务点(SSP)。GDSS系统提供许多分散的SSP,它们独立于所有的域,是用户访问存储资源的入口。SSP向最终用户提供数据存储服务,并负责和所有域的GNS和SA进行控制交互。3.4全局统一的文件名字空间文件命名空间用于帮助用户如何发现一个存在于特定位置的数据文件。名字空间通常有两种实现方法:一是建立一个完全全局统一的名字空间,所有的用户可以看到系统中的所有数据文件;二是多名字空间系统,不同的用户或不同位置使用的名字空间不同,可以访问数据资源也有所不同。虚拟化存储系统中存在大量分散的用户和大量分散的数据,如何建立一个文件命名机制是一个重要问题。它必须实现文件定位的高效率、位置透明性和访问透明性。GDSS系统的名字空间结合了单一名字空间和多名字空间的特点,建立了一个全局统一的文件命名空间,对所有的用户提供相同的文件命名、定位和访问机制。同时针对不同的用户的兴趣,为他们提供不同的数据视图,这样,系统针对特定用户要维护的元数据信息也相应减少从而提供了数据定位的效率。整个GDSS系统的物理资源由分散的多个自治域构成,但给用户提供的名字空间是逻辑的,以屏蔽数据物理位置的分散性,实现数据的透明访问。就是说,用户对数据文件的各种访问操作都是在逻辑名字空间上进行的。SSP负责逻辑名字空间的构建,而SSP与域中的GNS和RM来共同完成数据文件的完全逻辑限定名到实际数据物理位置的转换。3.5数据副本管理技术GDSS系统提供数据副本管理技术。主要的研究内容有:副本创建的时机;副本创建的策略;副本的更新时机;副本的替换的时机;副本的选择的策略;副本的传输。华中科技大学集群与网格计算湖北省重点实验室GDSS系统动态副本模型主要由副本目录、资源管理器、访问纪录器、副本管理器、副本传输器等五部分构成。其中,副本目录提供文件和对象的逻辑名字到具体物理存储位置之间的映射;资源管理器负责存储资源的调度分配和管理,收集域内存储系统的物理属性,资源管理器同时充当着资源选择器的角色;访问记录器记录本域或远域用户对文件的访问情况,如访问用户、用户所在域、文件访问时间、文件大小、访问回复延迟;副本管理器是整个副本模型的中枢,可以对副本目录进行条目的添加、删除、更新操作,并监控和触发副本实际过程。3.6数据安全如何保证数据不会被越权访问是存储虚拟化所面临的关键问题之一。GDSS采用访问控制和安全认证相结合的方式保证数据的安全。访问控制在前面已经介绍过,本节介绍系统的安全认证架构。GDSS综合考虑Kerberos私钥认证方式和PKI公钥认证方式两者的特点,并将其有效结合,提供了一种能够适应广域网环境下身份认证和授权访问要求的安全模型,具有以下优点:1.通过使用层次CA认证架构在广域全局范围内发放证书。同时,密钥的管理、分配、存储都采用证书的方式。2.实现了一次性签放的机制,所有签放票据都有一个有
本文标题:虚拟化存储系统
链接地址:https://www.777doc.com/doc-30638 .html