您好,欢迎访问三七文档
1.介绍HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streamingaccess)文件系统中的数据。HDFS开始是为开源的apache项目nutch的基础结构而创建,HDFS是hadoop项目的一部分,而hadoop又是lucene的一部分。2.特点和目标硬件故障硬件故障是常态,而不是异常。整个HDFS系统将由数百或数千个存储着文件数据片断的服务器组成。实际上它里面有非常巨大的组成部分,每一个组成部分都会频繁地出现故障,这就意味着HDFS里的一些组成部分是总是失效的,因此,故障的检测和自动快速恢复是HDFS一个很核心的结构目标。流式的数据访问运行在HDFS之上的应用程序必须流式地访问它们的数据集,它不是典型的运行在常规的文件系统之上的常规程序。HDFS是设计成适合批量处理的,而不是用户交互式的。重点是在数据吞吐量,而不是数据访问的反应时间,POSIX强制的很多硬性需求对很多应用不是必须的,去掉POSIX的很多关键地方的语义以获得更好的数据吞吐率。大数据集运行在HDFS之上的程序有很大量的数据集。这意味着典型的HDFS文件是GB到TB的大小,所以,HDFS是很好地支持大文件。它应该提供很高的聚合数据带宽,应该一个集群中支持数百个节点,还应该支持一个集群中千万的文件。简单一致性模型大部分的HDFS程序对文件操作需要的是一次写入,多次读取的。一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题和高吞吐量的数据访问。Map-Reduce程序或者网络爬虫程序都是非常完美地适合这个模型。有一个计划在将来实现文件的附加写入。移动计算比移动数据更经济在靠近要被计算的数据所存储的位置来进行计算是最理想的状态,尤其是在数据集特别巨大的时候。这样消除了网络的拥堵,提高了系统的整体吞吐量。这个假定就是将计算离数据更近比将文件移动到程序运行的位置更好。HDFS提供了接口,来让程序将自己移动到离数据存储的位置更近。轻便的访问异构的软硬件平台HDFS应该设计成这样的一种方式,就是简单轻便地从一个平台到另外一个平台,这将推动需要大数据集的应用更广泛地采用HDFS作为平台。名字节点和数据节点HDFS是一个主从结构的体系,一个HDFS集群是由一个名字节点,它是一个管理文件的命名空间和调节客户端访问文件的主服务器,当然还有的数据节点,一个节点一个,它来管理存储。HDFS暴露文件命名空间和允许用户数据存储成文件。内部机制是将一个文件分割成一个或多个的块,这些块存储在一组数据节点中。名字节点操作文件命名空间的文件或目录操作,如打开,关闭,重命名,等等。它同时确定块与数据节点的映射。数据节点来负责来自文件系统客户的读写请求。数据节点同时还要执行块的创建,删除,和来自名字节点的块复制指示。名字节点和数据节点都是软件运行在普通的机器之上,机器典型的都是linux,HDFS是用java来写的,任何支持java的机器都可以运行名字节点或数据节点,利用java语言的超轻便型,很容易将HDFS部署到大范围的机器上。典型的部署时将有一个专门的机器来运行名字节点软件,机群中的其他机器运行一个数据节点实例。体系结构排斥在一个机器上运行多个数据节点的实例,但是实际的部署不会有这种情况。集群中只有一个名字节点极大地简单化了系统的体系。名字节点是仲裁者和所有HDFS的元数据的仓库。系统设计成用户的实际数据不经过名字节点。文件命名空间HDFS支持传统的继承是的文件组织。一个用户或一个程序可以创建目录,存储文件到很多目录之中。文件系统的名字空间层次和其他的文件系统相似。可以创建、移动文件,将文件从一个目录移动到另外一个,或重命名。HDFS现在还没有实现用户的配额和访问控制。HDFS还不支持硬链接和软链接。然而,HDFS结构不排斥在将来实现这些功能。名字节点维护文件的系统的命名空间,任何文件命名空间的改变和或属性都被名字节点记录。应用程序可以指定文件的复制数,文件的拷贝被称作文件的复制因子,这些信息有名字空间来负责存储。数据复制HDFS设计成可靠地在集群中的大量机器之间存储非常大量的文件,它以块序列的形式存储每一个文件。文件的除了最后一个块的其他块都是相同的大小。属于文件的块为了故障容错而被复制。块的大小和复制数可以为每个文件配置。HDFS中的文件都是严格地任何时候只有一个写操作。程序可以特别地为某个文件指定。复制数,文件的复制数可以在文件的创建的时候指定或者以后改变。名字节点来做所有的块复制,它周期性地接受来自集群中数据节点的心跳和块报告。一个心跳的收条表示这个数据节点是健康的,是渴望服务数据的。一个块报告包括该数据节点上的所有的块列表。复制块的放置位置。第一个块的阶段复制块的放置位置的选择严重影响HDFS的可靠性和性能。这个特征是HDFS和其他的分布式文件系统的区别。这个特征需要很多的调节和经验。根据机架的复制布局目的就是提高数据的可靠性,可用性和网络带宽的利用。当前的这方面的实现方式是在这个方向上的第一步。短期的目标实现是这个方式要在生产环境下去验证,以得到它的行为和实现一个为将来的测试和研究更佳的方式的基础。HDFS运行在跨越很多机架的集群机器之上。两个不同机架上的节点通信是通过交换机的,在大多数情况下,两个在相同机架上的节点之间的网络带宽是优于在不同的机架之上的两个机器。在开始的时候,每一个数据节点自检它所属的机架,然后在向名字节点注册的时候告知它的机架id。HDFS提供接口以便很容易地挂载检测机架标示的模块。一个简单但不是最优的方式就是将复制跨越不同的机架,这样以保证在这个机架出现故障而不丢失数据,还能在读数据的时候充分利用不同机架的带宽。这个方式均匀地将复制分散在集群中以简单化地实现了组件实效的负载均衡,然而,这个方式增加了写的成本,因为写的时候需要传输文件块到很多的机架。在大多数复制数为3的普通的情况下,HDFS放置方式是将第一个放在本地节点,将第二个复制放到本地机架上的另外一个节点而将第三个复制放到不同机架上的节点。这种方式减少了机架内的写流量,提高了写的性能。机架失效的机会远小于机器实效的。这种方式没有影响数据的可靠性和可用性的保证。但是它减少了读操作的网络聚合带宽,因为文件块存在两个不同的机架,而不是三个。文件的复制不是均匀地分布在机架当中。1/3在同一个节点上,第二个1/3复制在同一个机架上,另外1/3是均匀地分布在其他的机架上。这种方式提高了写性能,而没有影响数据的可靠性和读性能。上面的实现方式正在进行中。复制的选择HDFS尝试满足一个读操作来自离它最近的复制。假如在读节点的同一个机架上就有这个复制,就直接读这个,如果HDFS集群是跨越多个数据中心,那么本地数据中心的复制是优先于远程的复制。安全模式在启动的时候,名字节点进入一个特殊的状态叫做安全模式。安全模式是不发生文件块的复制的。名字节点接受来自数据节点的心跳和块报告。一个块报告包括的是数据节点向名字节点报告数据块的列表。每一个块有一个特定的最小复制数。当名字节点检查这个块已经大于最小的复制数就被认为是安全地复制了,当达到配置的块安全复制比例时(+30s)名字节点就退出安全模式。它将检测数据块的列表,将小于特定复制数的块复制到其他的数据节点。文件系统的元数据的持久化HDFS的命名空间是由名字节点来存储的。名字节点用事务日志叫做EditLog来持久化每一个对文件系统的元数据的改变,例如,在HDFS中创建一个新的文件,名字节点将会插入一吊记录到EditLog来标示这个改变。类似地,改变文件的复制因子也会向EditLog中插入一条记录。名字节点在本地文件系统中用一个文件来存储这个EditLog。完整的文件系统命名空间、文件块的映射和文件系统的配置都存在一个叫FsImage的文件中,FsImage也是名字节点的本地文件系统中。名字节点在内存中有一个完整的文件系统命名空间和文件块的映射镜像。这个元数据时设计成紧凑的,这样4G的内存的名字节点就能很轻松地处理非常大文件数和目录,当名字节点启动,它将从磁盘中读取FsImage和EditLog应用EditLog中的所有的事务到内存中的FsImage表示方法,然后将新的元数据刷新到本地磁盘的新的FsImage中这样可以截去旧的EditLog,因为事务已经被处理并已经持久化的FsImage中。这个过程叫做检查点。在现在的实现检查点在名字节点启动的时候发生。支持周期性的检查点正在进行中。数据节点存储HDFS数据到本地的文件系统中。数据节点没有关于HDFS文件的信息。它以单独的文件存储每一个HDFS的块到本地文件系统中。数据节点不产生所有的文件到同一个目录中,而是它用启发式的检测最优的每一个目录的文件数。它在适当的时候创建子目录。在本地文件的同一个目录下创建所有的文件不是最优的,因为本地文件系统可能单个目录里有数目巨大的文件效率较差。当数据节点启动的时候,它将扫描它的本地文件系统,根据本地的文件产生一个所有HDFS数据块的列表并报告给名字节点,这个报告称作块报告。通信协议所有的通信协议都是在TCP/IP协议之上的。一个客户端和明确的配置端口的名字节点建立连接之后,它和名字节点的协议是ClientProtocal。数据节点和名字节点之间用DatanodeProtocal。详细的这些协议将在后面解释。RPC抽象地包装了ClientProtocol和DataNodeProtocol。根据设计,名字节点不会发起一个RPC,它只是对数据节点和客户端发起的RPC做出反馈。鲁棒性HDFS的主要目标就是在存在故障的情况下可靠地存储数据。三个普通的故障是名字节点失效,数据节点失效,和网络断开磁盘故障,心跳和重新复制一个数据节点周期性发送一个心跳信息到名字节点。网络断开会造成一个数据节点子集和名字节点失去联系。名字节点发现这种情况是根据有没有了心跳信息。名字节点标记这些数据节点是死掉了,就不再将新的IO请求转发到这些数据节点上。而这些数据节点上的数据将对HDFS不再可用。这将导致一些块的复制因子降低到指定的值。名字节点检查所有的需要复制的块,并开始复制他们到其他的数据节点上。重新复制会因为很多原因而必须例如:数据节点变得比可用,被破坏了的复制,数据节点上的磁盘损坏或增加了文件的复制因子。集群的重新均衡HDFS体系结构是兼容数据的重新平衡方案的。在数据节点的可用空间降低到一个极限时数据可能自动的从一个数据节点移动到另外一个,而且一个突然地对一个特殊的文件发生高请求时也会引发额外的复制,将集群中的其他数据重新均衡。这种类型的重新均衡方案还没有实现。数据正确性从数据节点上取一个文件块有可能出现损坏的情况,这种情况可能会发生是因为存储设备,差劲的网络,软件的缺陷。HDFS客户端实现了校验去检查HDFS的文件内容。当一个客户端创建一个HDFS文件,它为每一个文件快计算一个校验码并存储校验码在同一个HDFS名字空间中的一个单独的隐藏文件中。当客户端找回这个文件内容时,它再根据这个校验码来验证从数据节点接受到的数据。如果不对,客户端可以从另外一个有该块复制的数据节点取这个块。元数据磁盘实效FsImage和Editlog是HDFS的中心数据结构。这些文件的损坏会导致整个集群的不工作。应为这个原因,名字节点可以配置成多个FsImage和EditLog的拷贝。任何的不管对FsImage和EditLog的更新都会同步地更新每一个拷贝。这个同步的更新多个EditLog可能降低了名字节点的可支持名字空间的每秒交易数。但是这个降低是可接受的,因为HDFS程序都是自然地对数据要求强烈,而不是对元数据的要求强烈。名字
本文标题:hadoop和文件
链接地址:https://www.777doc.com/doc-6164376 .html