您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > HNAS快照及重删技术说明
1.HitachiNAS系统内的快照和重删技术1.1快照技术快照的机制是一种基于指针的文件系统级的数据保护工具,当新的数据写入到文件系统时,原始的未更新的数据将会被保存成为快照。快照是基于块级操作的,也就是说只有那些文件中要被更新的数据块才会被写入到磁盘中新的位置,那些未改变的数据块不会被移动,只有将快照和剩余的文件系统一起才可以形成与更新前一样的数据目标用于使用。这种快照方法可以提高存储系统的利用效率。如果有些数据需要快照保护,而另外一些不需要,或者数据变化非常大导致快照所占用的存储空间急剧增大,则可以选择多文件系统,对每个文件系统分别设置不同的快照策略。快照执行的顺序一般如下述步骤:1.将要被快照的文件系统在t0时间点的视图,包含数据块A、B、C;2.快照建立实例,没有数据被拷贝,此时为时间点t1;3.在时间点t2时,写入操作发生,快照软件创建指针RootOnode,而指针SnapshotOnode指向旧的数据目标;4.新输入的数据B’&C’被写入新的数据块,同时添加新数据块的指针到RootOnode中去,而旧的指针(指向B&C)被删除;5.当读取主卷时,使用RootOnode指向的数据块和未更新的数据块组成访问对象,即A,B’,C’;6.当读取快照卷时,使用SnapshotOnode指针指向的数据块B&C,与共享的数据块A组成访问对象,即A,B,C;当某个文件系统进行卷快照时,其相关的文件和目录的访问许可属性将被保留在快照中。这样用户就可以从快照卷中访问文件和目录。用户也可以从一个快照中恢复文件和目录。文件和目录的事件戳将作为快照的一部分被保存下来。HNAS的快照可以提供文件级的数据恢复,而无需系统管理员的干预,也可以用于数据备份而不影响正在访问的数据。1.2重复数据删除重复数据删除技术是通过一定的算法检测并删除数据集中重复的数据,只保留其中一份从而消除冗余数据。这种技术可以很大程度上减少对物理存储空间的需求,从而满足日益增长的数据存储需求。重复数据删除技术可以带许多实际的利益,主要包括以下诸多方面:(1)满足ROI投资回报率,TCO总持有成本需求;(2)可以有效控制数据的急剧增长;(3)增加有效存储空间,提高存储效率;(4)节省存储总成本和管理成本;(5)节省空间、电力供应、冷却等运维成本。HNAS重删技术是基于主存储的重复数据删除在企业IT环境中,一般有主存储和二级存储(在线存储和近线存储)之分,HNAS是用来存储用户在线非结构化业务数据的一级主存储,在线存储,重复数据删除技术可以应用到主存储和二级存储上。主存储被定义为含有活跃数据,在线数据或者是联机交易的数据等等,所有这些数据都是用户经常访问的数据,在线主存储系统设计要求最佳性能;而二级存储是用来容纳不太活跃的数据,如历史内容,存档或备份的数据。因此至目前为止,重复数据删除已主要用于二级存储系统。主要的原因是随着时间的推移,归档和备份的应用程序将产生大量的重复数据因此对重复数据删除技术的要求比较迫切。在二级存储上的重复数据删除技术的主要目标是以尽可能少的磁盘存储尽可能多的大量的数据以提高效率和降低成本。从另一方面来说,主存储系统要求不惜牺牲其他考虑来要求满足卓越的性能表现,在线主存储是不能容忍任何操作或者技术对性能产生不利影响的。而大多数重复数据删除技术被视为是会影响性能开销的技术,同时,传统的IT主管们一厢情愿的认为在线主存储是不会包含多少重复数据的,大部分重复数据应该只会存在于一些备份归档的二级近线存储上,出于这些原因,目前主流市场上存储设备用作在线存储具备提供重复数据删除技术的厂家和产品寥寥无几。然而最近的一些研究表明,在大多数企业的数据中心中平均高达40%的主存储数据可能是重复的数据,比如在一个测试开发环境中,新的应用运行在在线主存储上产生多个副本之后也不会被删除而需要永久保留,甚至在虚拟化环境中虚拟机系统和文件的冗余数据将成几何倍数增长,有些地方可以高达90%及以上,那么这些数据表明,在在线的主存储设备上,众多重复数据十分浪费资源空间以及维护等等成本,在线主存储对重复数据删除技术的需求以及迫在眉睫。灵活的数据删除块大小在这样一些背景需求条件下,HDS高性能HNAS作为企业非结构数据市场的在线主存储产品,在2012年研究和发布了基于HNAS专业FPGA芯片硬件加速的重复数据删除技术。重复数据删除技术按照消重的粒度可以分为文件级和数据块级。文件级的重删技术也称为单一实例存储(SIS,SingleInstanceStore),数据块级的重复数据删除其消重粒度更小,可以达到4-24KB之间。显然,文件级别的去重只能以文件为单位,而数据块级的可以提供更高的数据消重率,因此目前主流的重复数据删除技术产品都是数据块级的。数据分块算法主要有三种,即定长切分(fixed-sizepartition)、CDC切分(content-definedchunking)和滑动块(slidingblock)切分。HNAS重复数据删除的数据块单元是固定大小定长切分但是可以支持选择不同的数据块大小单元(4KB/32KB)进行重复数据删除的技术,如下图所示,当用户需要对重删比非常高的环境和数据,选择粒度比较小的4KB重删块单元进行重删运算将得到十分高比重的去重率;当要求对重复数据删除速度性能要求高的场合,选择32KB的重删块单元大小:高效的重删算法数据指纹是数据块的本质特征,理想状态是每个唯一数据块具有唯一的数据指纹,不同的数据块具有不同的数据指纹。数据块本身往往较大,因此数据指纹的目标是期望以较小的数据长度表示(如16、32、64、128字节)来区别不同数据块。数据指纹通常是对数据块内容进行相关数学运算获得,从当前研究成果来看Hash函数比较接近与理想目标,比如MD5、SHA1、SHA-256、SHA-512、为one-Way、RabinHash等。另外,还有许多字符串Hash函数也可以用来计算数据块指纹。然而,遗憾的是这些指纹函数都存在碰撞问题,即不同数据块可能会产生相同的数据指纹。相对来说,SHA系列HASH函数具有非常低的碰撞发生概率,因此通常被采用作为重复数据删除的指纹计算方法。其中,MD5和SHA1是128位的,SHA-256是256位的HASH算法具有更低的碰撞发生概率.HNAS重复数据删除技术采用SHA-256的hash算法,结合HNAS基于FPGA硬件加速运行hash可以最大程度的保证在线主存储服务不受性能影响。HNAS重复数据删除技术License分为两种:Base版和Premium版,Premium版本运行重删的FPGA资源和SHA进程会更多,重删的性能速度会更快速。HNAS重复数据删除技术是在当客户端将数据写入到目标存储HNAS之后,在HNAS上运行重删进程来计算重复数据块达到消重功能的,HNAS重复数据删除的运行时间是可以控制调节的,可以根据客户应用系统需要和工作时间进行Schedule定制计划,在指定的时间运行重复数据删除。同时,做为对性能十分敏感的主存储在线存储上运行的重复数据删除技术,HNAS重删的运行是可以保障NAS文件共享性能的,如果HNAS系统上的文件系统在运行重删时候NAS文件服务系统资源达到一定的阀值将会暂停挂起重删,等待文件服务高峰过了之后系统资源释放出来后再继续进行重复数据删除。
本文标题:HNAS快照及重删技术说明
链接地址:https://www.777doc.com/doc-2876479 .html