您好,欢迎访问三七文档
大话冷存储(一)技术背景智能互联网时代,数据正在以几何量级爆炸式增长。EMC的预测报告显示,到2020年,全球数据总量预计会超过44ZB(1ZB=220PB)。如此海量的数据中蕴含着巨大的价值,特别是大数据的“低价值密度”特性使大规模数据的完备保存成为必然需求,因此如何提升数据的存储管理效率是业界亟待解决的问题。根据被访问的频度不同,数据可以被分为“热数据、温数据、冷数据”三种类型。其中,冷数据特指活动不频繁、不会被经常访问甚至永远不会被访问,但仍然需要长期保留的数据。热数据受到业务特征、用户行为乃至监管政策的影响(例如,医院的医学影像文件需要自患者最后一次就诊之日起保存不少于15年),经过一段时间的使用后,绝大部分数据都会迅速变“冷”。因此,数据集合中通常有高达80%的部分属于不常被访问的冷数据。然而,冷数据并非失去价值,大数据、人工智能等新兴业务对海量冷数据进行检索和挖掘的需求依然存在而且日益迫切。当前热数据高效存储/访问技术的发展导致存储数据总量指数性爆发,面对当前数据规模快速增长的趋势,冷数据如何管理已成为存储领域的关注热点。冷数据高效管理的核心需求在于降低海量数据冷存储的成本(特别是系统运行功耗)。2015年我国数据中心的电量总消耗为1000亿度,超过全社会年用电量的1.5%,存储系统消耗电量占总消耗的30%,其中冷存储消耗占比存储系统总消耗为24%。同时,系统存取性能有待提升,使冷数据能够以近线存储的方式被访问。(二)海量数据冷存储技术关键1、数据的分级,主要是指从海量数据中根据文件的访问频率、价值等因素,进行冷、热数据的分类,甚至分出更细的数据类型,如“温数据”、“冰数据”等。目前常见的数据分级方法主要有两类,一类是业务数据的分类,即基于具体的业务类型,结合长期以来的运营经验,进行运营级的数据分类。另一类是基于数据存取特性的分类,即借助存储软件系统自动进行数据的冷热分级。通过存储软件系统对数据进行冷热监控,统计分析一个时间周期内的IO冷热程度,并按照设定的分类策略自动进行数据的分类,并将冷数据从前端业务存储系统迁移到冷数据存储系统。2、数据的压缩去重,提高有效数据的存储比例。为了提升数据存储的可靠性,通常会对数据进行多副本存储,但多副本的方式会带来存储数据量的倍增。为了进一步提升存储效率,在一些读写性能要求较低的场景下,可以选择只保存校验数据。3、运营能力的提升,海量数据的存储需要更智能化的运维系统,包括对数据的定期巡检、数据的精细化分类、自动化的数据迁移、故障预测及定位、设备的休眠等机房节能措施。此外,存储的架构设计也是当前的研究热点,包括设备的分级、存储介质的选型、数据存储格式、数据检索、对外服务接口等。此外,数据访问延迟、整体读取速率以及数据持久性等,也是海量冷数据存储的关键技术。这些关键技术相互制约影响,尤其是在运营能力提升方面,涉及的因素众多,对冷数据存储的选型提出了新的挑战。(三)金钱猫冷存储技术大数据时代,冷数据占到总数据的80%左右,比如Facebook自身的数据中心有89%的数据都是冷数据。而这些冷数据同样重要,许多大数据分析都要基于冷数据来进行,而且许多数据要求保存的时间非常长,例如银行、社保等数据,一般都要保存70~100年的时间。传统的观点认为“硬盘存储不论使用和闲置,都会消耗能量”,因此多采用磁带或者光盘来保存冷存储数据。但是,磁带访问慢,光盘容量小,操作复杂,很难满足大数据时代数据实时在线、快速访问的需求。而实际上,随着叠瓦式磁记录等硬盘技术的发展,硬盘容量原来越大,能耗越来越低,图灵奖得主、前微软副总裁吉姆·格雷早在2006年就曾断言:“SSD将变成磁盘,磁盘变成磁带,磁带将最终消亡”。为此,金钱猫研发了一套基于硬盘的大数据智能冷存储系统.金钱猫大数据冷存储系统的主要功能包括:支持海量数据存储;实现了全局命名空间,所有应用看到统一的文件系统视图;支持标准接口,应用无需修改直接运行;元数据存储于内存,确保了文件的访问速度;多级存储备份,灵活支持磁盘-磁带的分级存储与备份,拥有完备的文件管理功能;支持硬盘智能通断电,数据自动迁移,绿色节能;通过大数据分析,对存储系统画像,给出存储系统规划智能决策;透明管理异构存储系统,能够实现跨系统的数据整合,保护用户投资。
本文标题:大话冷存储
链接地址:https://www.777doc.com/doc-1656312 .html