您好,欢迎访问三七文档
2016.9大数据之大----大是相对而言的概念。Eg:对于像SAPHANA(是一个软硬件结合体,提供高性能的数据查询功能)那样的内存数据库来说,2TB可能就已经是大容量了;而对于像谷歌这样的搜索引擎,EB的数据量才能称得上是大数据。大也是一个迅速变化的概念。HDS(快速交货服务)在2004年发布的USP存储虚拟化平台具备管理32PB内外部附加存储的能力。当时,大多数人认为,USP的存储容量大得有些离谱。但是现在,大多数企业都已经拥有PB级的数据量,一些搜索引擎公司的数据存储量甚至达到了EB级。由于许多家庭都保存了TB级的数据量,一些云计算公司正在推广其文件共享或家庭数据备份服务。由此看来,大数据存储的首要需求存储容量可扩展。大数据对存储容量的需求已经超出目前用户现有的存储能力。这就要求实现存储虚拟化。存储虚拟化是目前为止提高存储效率最重要、最有效的技术手段。它为现有存储系统提供了自动分层和精简配置等提高存储效率的工具。拥有了虚拟化存储,用户可以将来自内部和外部存储系统中的结构化和非结构化数据全部整合到一个单一的存储平台上。当所有存储资产变成一个单一的存储资源池时,自动分层和精简配置功能就可以扩展到整个存储基础设施层面。1)数据存储大数据发展面临的问题是来自不同地方、不同标准、数据量大、多种结构形式、实时性等多样化要求的数据信息。2)数据分析是大数据处理流程的核心,因为大数据的价值就产生于分析的过程,首先,数据量大带来更大价值的同时也带来了更多的数据噪音.其次,传统的数据仓库系统对处理时间的要求并不高,而在很多大数据应用场景中,不仅要考虑算法的准确性,还要考虑实时性的要求3)数据显示与数据分析相比,很多用户往往更关心数据结果的显示。传统的以文本形式输出结果或者直接在电脑终端上显示结果的方法在面对小数据量或许是很好的选择,但是对于形式复杂的海量数据是不可行的。这就需要引入可视化技术来可视化最终甚至是中间的计算结果,此外,还需要人机交互技术或者数据起源技术,使得用户在得到结果的同时更好的理解结果的由来数据安全数据的持续增长带来了数据的安全问题。首先,大数据因为目标大而在网络上更容易被发现;其次,大数据存在更敏感更有价值的数据,对潜在攻击者的吸引力更大。容量问题这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。4)延迟问题“大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融类相关的应用。有很多“大数据”应用环境需要较高的IOPS性能,比如HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储,自动、智能地对热点数据进行读/写高速缓存的LSINytro系列产品等等都在蓬勃发展。5)安全问题某些特殊行业的应用,比如金融数据、医疗信息以及政府情报等都有自己的安全标准和保密性需求.6)成本问题对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同时还要减少那些昂贵的部件。7)数据的积累许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而财务信息通常要保存7年。而有些使用大数据存储的用户却希望数据能够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用的特性。同时还要实现数据直接在原位更新的功能需求。8)灵活性大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计,才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入使用,就很难再调整了,因此它必须能够适应各种不同的应用类型和数据场景。大数据存储的目的是支撑大数据分析。到目前为止,这两种技术还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析关注的是在最短时间内处理大量不同类型的数据集。什么是大数据存储大数据存储是指大数据的存储问题。大数据存储和传统的数据存储的不同1、存储虚拟化存储的虚拟化技术有很多优点,比如提高存储利用效率和性能,简化存储管理复杂性,绿色节省,降低运营成本等。现代数据应用在存储容量、I/O性能、可用性、可靠性、利用效率、管理、业务连续性等方面对存储系统不断提出更高的需求,基于存储虚拟化提供目前最新的存储虚拟化技术有自动分级存储(根据数据的重要性、访问频率、保留时间、容量、性能等指标,将数据采取不同的存储方式分别存储在不同性能的存储设备上,通过分级存储管理实现数据客体在存储设备之间的自动迁移)、自动精减配置(是一项新的容量分配的技术,不会一次性的划分过大的空间给某项应用,而是根据该项应用实际所需要的容量,多次的少量的分配给应用程序,当该项应用所产生的数据增长,分配的容量空间已不够的时候,系统会再次从后端存储池中补充分配一部分存储空间)、云存储(指通过集群应用、网络技术或分布式系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统)、分布式文件系统,另外还有诸如动态内存分区、SAN和NAS虚拟化。2、固态硬盘固态硬盘,简称固盘,固态硬盘用固态电子存储芯片阵列而制成的硬盘,由控制单元和存储单元组成。分类固态硬盘的存储介质分为两种,一种是采用闪存(它的外观可以被制作成多种模样,例如:笔记本硬盘、微硬盘、存储卜、U盘等样式。)作为存储介质,另外一种是采用DRAM(它是一种高性能的存储器,而且使用寿命很长,美中不足的是需要独立电源来保护数据安全)作为存储介质。优点1、读写速度快:采用闪存作为存储介质,读取速度相对机械硬盘更快。2、防震抗摔性:传统硬盘都是磁碟型的,数据储存在磁碟扇区里。而固态硬盘是使用闪存颗粒(即mp3、U盘等存储介质)制作而成。3、低功耗:固态硬盘的功耗上要低于传统硬盘。4、无噪音:固态硬盘没有机械马达和风扇,工作时噪音值为0分贝5、工作温度范围大:典型的硬盘驱动器只能在5到55摄氏度范围内工作。而大多数固态硬盘可在-10~70摄氏度工作。6、轻便:固态硬盘在重量方面更轻,与常规1.8英寸硬盘相比,重量轻20-30克一种数据缩减技术,通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。为了解决这个问题,节省更多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。采用“重复删除”技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使磁盘上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。1.存储层存储层是云存储最基础的部分。存储设备可以是光纤存储设通道设备,云存储中的存储设备往往数量庞大且分布多不同地域。彼此之间通过广域同、互联网或者FC光纤通道网络连接在一起。2.基础管理层基础管理层是云存储最核心的部分,也是云存储中最难以实现的部分。基础管理层通过集群、分布式文件系统和网格计算等技术,实现云存储中多个存储设备之间的协同工作,使多个的存储设备可以对外提供同一种服务,并提供更大更强更好的数据访问性能。3.应用接口层应用接口层是云存储最灵活多变的部分。不同的云存储运营单位可以根据实际业务类型,开发不同的应用服务接口,提供不同的应用服务。比如视频监控应用平台、IPTV和视频点播应用平台、网络硬盘应用平台,远程数据备份应用平台等。4.访问层任何一个授权用户都可以通过标准的公用应用接口来登录云存储系统,享受云存储服务。云存储运营单位不同,云存储提供的访问类型和访问手段也不同。注意:云存储不是存储,而是服务就如同云状的广域网和互联网一样,云存储对使用者来讲,不是指某一个具体的设备,而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。所以严格来讲,云存储不是存储,而是一种服务。云存储的核心是应用软件与存储设备相结合,通过应用软件来实现存储设备向存储服务的转变。
本文标题:第二章 大数据存储
链接地址:https://www.777doc.com/doc-3250556 .html