Hadoop分布式文件系统使用指南—官方原版_数据分析

一、目的

本文档的目标是为hadoop分布式文件系统（hdfs）的用户提供一个学习的起点，这里的hdfs既可以作为hadoop集群的一部分，也可以作为一个独立的分布式文件系统。虽然hdfs在很多环境下被设计成是可正确工作的，但是了解hdfs的工作原理对在特定集群上改进hdfs的运行性能和错误诊断都有极大的帮助。

二、概述

hdfs是hadoop应用用到的一个最主要的分布式存储系统。一个hdfs集群主要由一个namenode和很多个datanode组成：namenode管理文件系统的元数据，而datanode存储了实际的数据。本文档主要关注用户以及管理员怎样和hdfs进行交互。基本上，客户端联系namenode以获取文件的元数据或修饰属性，而真正的文件i/o操作是直接和datanode进行交互的。

下面列出了一些多数用户都比较感兴趣的重要特性。

hadoop（包括hdfs）非常适合在商用硬件（commodity hardware）上做分布式存储和计算，因为它不仅具有容错性和可扩展性，而且非常易于扩展。map-reduce
框架以其在大型分布式系统应用上的简单性和可用性而著称，这个框架已经被集成进hadoop中。
hdfs的可配置性极高，同时，它的默认配置能够满足很多的安装环境。多数情况下，这些参数只在非常大规模的集群环境下才需要调整。
用java语言开发，支持所有的主流平台。
支持类shell命令，可直接和hdfs进行交互。
namenode和datanode有内置的web服务器，方便用户检查集群的当前状态。
新特性和改进会定期加入hdfs的实现中。下面列出的是hdfs中常用特性的一部分：
- 文件权限和授权。
- 机架感知（rack awareness）：在调度任务和分配存储空间时考虑节点的物理位置。
- 安全模式：一种维护需要的管理模式。
- fsck：一个诊断文件系统健康状况的工具，能够发现丢失的文件或数据块。
- rebalancer：当datanode之间数据不均衡时，平衡集群上的数据负载。
- 升级和回滚：在软件更新后有异常发生的情形下，能够回滚到hdfs升级之前的状态。
- secondary namenode：对文件系统名字空间执行周期性的检查点，将namenode上hdfs改动日志文件的大小控制在某个特定的限度下。

三、架构与设计

1、流式数据访问

运行在hdfs上的应用和普通的应用不同，需要流式访问它们的数据集。hdfs的设计中更多的考虑到了数据批处理，而不是用户交互处理。比之数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。posix标准设置的很多硬性约束对hdfs应用系统不是必需的。为了提高数据的吞吐量，在一些关键方面对posix的语义做了一些修改。

2、大规模数据集

运行在hdfs上的应用具有很大的数据集。hdfs上的一个典型文件大小一般都在g字节至t字节。因此，hdfs被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽，能在一个集群里扩展到数百个节点。一个单一的hdfs实例应该能支撑数以千万计的文件。

3、namenode 和 datanode

hdfs采用master/slave架构。一个hdfs集群是由一个namenode和一定数目的datanodes组成。namenode是一个中心服务器，负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的datanode一般是一个节点一个，负责管理它所在节点上的存储。hdfs暴露了文件系统的名字空间，用户能够以文件的形式在上面存储数据。从内部看，一个文件其实被分成一个或多个数据块，这些块存储在一组datanode上。namenode执行文件系统的名字空间操作，比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体datanode节点的映射。datanode负责处理文件系统客户端的读写请求。在namenode的统一调度下进行数据块的创建、删除和复制。

namenode和datanode被设计成可以在普通的商用机器上运行。这些机器一般运行着gnu/linux操作系统(os)。hdfs采用java语言开发，因此任何支持java的机器都可以部署namenode或datanode。由于采用了可移植性极强的java语言，使得hdfs可以部署到多种类型的机器上。一个典型的部署场景是一台机器上只运行一个namenode实例，而集群中的其它机器分别运行一个datanode实例。这种架构并不排斥在一台机器上运行多个datanode，只不过这样的情况比较少见。

集群中单一namenode的结构大大简化了系统的架构。namenode是所有hdfs元数据的仲裁者和管理者，这样，用户数据永远不会流过namenode。

4、文件系统的名字空间 (namespace)

hdfs支持传统的层次型文件组织结构。用户或者应用程序可以创建目录，然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似：用户可以创建、删除、移动或重命名文件。当前，hdfs不支持用户磁盘配额和访问权限控制，也不支持硬链接和软链接。但是hdfs架构并不妨碍实现这些特性。

namenode负责维护文件系统的名字空间，任何对文件系统名字空间或属性的修改都将被namenode记录下来。应用程序可以设置hdfs保存的文件的副本数目。文件副本的数目称为文件的副本系数，这个信息也是由namenode保存的。

5、数据复制

hdfs被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块，除了最后一个，所有的数据块都是同样大小的。为了容错，文件的所有数据块都会有副本。每个文件的数据块大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定，也可以在之后改变。hdfs中的文件都是一次性写入的，并且严格要求在任何时候只能有一个写入者。

namenode全权管理数据块的复制，它周期性地从集群中的每个datanode接收心跳信号和块状态报告(blockreport)。接收到心跳信号意味着该datanode节点工作正常。块状态报告包含了一个该datanode上所有数据块的列表。

6、文件系统元数据的持久化

namenode上保存着hdfs的名字空间。对于任何对文件系统元数据产生修改的操作，namenode都会使用一种称为editlog的事务日志记录下来。例如，在hdfs中创建一个文件，namenode就会在editlog中插入一条记录来表示；同样地，修改文件的副本系数也将往editlog插入一条记录。namenode在本地操作系统的文件系统中存储这个editlog。整个文件系统的名字空间，包括数据块到文件的映射、文件的属性等，都存储在一个称为fsimage的文件中，这个文件也是放在namenode所在的本地文件系统上。

namenode在内存中保存着整个文件系统的名字空间和文件数据块映射(blockmap)的映像。这个关键的元数据结构设计得很紧凑，因而一个有4g内存的namenode足够支撑大量的文件和目录。当namenode启动时，它从硬盘中读取editlog和fsimage，将所有editlog中的事务作用在内存中的fsimage上，并将这个新版本的fsimage从内存中保存到本地磁盘上，然后删除旧的editlog，因为这个旧的editlog的事务都已经作用在fsimage上了。这个过程称为一个检查点(checkpoint)。在当前实现中，检查点只发生在namenode启动时，在不久的将来将实现支持周期性的检查点。

datanode将hdfs数据以文件的形式存储在本地的文件系统中，它并不知道有关hdfs文件的信息。它把每个hdfs数据块存储在本地文件系统的一个单独的文件中。datanode并不在同一个目录创建所有的文件，实际上，它用试探的方法来确定每个目录的最佳文件数目，并且在适当的时候创建子目录。在同一个目录中创建所有的本地文件并不是最优的选择，这是因为本地文件系统可能无法高效地在单个目录中支持大量的文件。当一个datanode启动时，它会扫描本地文件系统，产生一个这些本地文件对应的所有hdfs数据块的列表，然后作为报告发送到namenode，这个报告就是块状态报告。

7、通讯协议

所有的hdfs通讯协议都是建立在tcp/ip协议之上。客户端通过一个可配置的tcp端口连接到namenode，通过clientprotocol协议与namenode交互。而datanode使用datanodeprotocol协议与namenode交互。一个远程过程调用(rpc)模型被抽象出来封装clientprotocol和datanodeprotocol协议。在设计上，namenode不会主动发起rpc，而是响应来自客户端或 datanode 的rpc请求。

8、数据组织

数据块

hdfs被设计成支持大文件，适用hdfs的是那些需要处理大规模的数据集的应用。这些应用都是只写入数据一次，但却读取一次或多次，并且读取速度应能满足流式读取的需要。hdfs支持文件的“一次写入多次读取”语义。一个典型的数据块大小是64mb。因而，hdfs中的文件总是按照64m被切分成不同的块，每个块尽可能地存储于不同的datanode中。

staging

客户端创建文件的请求其实并没有立即发送给namenode，事实上，在刚开始阶段hdfs客户端会先将文件数据缓存到本地的一个临时文件。应用程序的写操作被透明地重定向到这个临时文件。当这个临时文件累积的数据量超过一个数据块的大小，客户端才会联系namenode。namenode将文件名插入文件系统的层次结构中，并且分配一个数据块给它。然后返回datanode的标识符和目标数据块给客户端。接着客户端将这块数据从本地临时文件上传到指定的datanode上。当文件关闭时，在临时文件中剩余的没有上传的数据也会传输到指定的datanode上。然后客户端告诉namenode文件已经关闭。此时namenode才将文件创建操作提交到日志里进行存储。如果namenode在文件关闭前宕机了，则该文件将丢失。

上述方法是对在hdfs上运行的目标应用进行认真考虑后得到的结果。这些应用需要进行文件的流式写入。如果不采用客户端缓存，由于网络速度和网络堵塞会对吞估量造成比较大的影响。这种方法并不是没有先例的，早期的文件系统，比如afs，就用客户端缓存来提高性能。为了达到更高的数据上传效率，已经放松了posix标准的要求。

四、web接口

namenode和datanode各自启动了一个内置的web服务器，显示了集群当前的基本状态和信息。在默认配置下namenode的首页地址是http://namenode-name:50070/。这个页面列出了集群里的所有datanode和集群的基本状态。这个web接口也可以用来浏览整个文件系统（使用namenode首页上的"browse the file system"链接）。

五、shell命令

hadoop包括一系列的类shell的命令，可直接和hdfs以及其他hadoop支持的文件系统进行交互。bin/hadoop fs -help 命令列出所有hadoop shell支持的命令。而 bin/hadoop fs -help command-name 命令能显示关于某个命令的详细信息。这些命令支持大多数普通文件系统的操作，比如复制文件、改变文件权限等。它还支持一些hdfs特有的操作，比如改变文件副本数目。

1、dfsadmin命令

'bin/hadoop dfsadmin' 命令支持一些和hdfs管理相关的操作。bin/hadoop dfsadmin -help 命令能列出所有当前支持的命令。比如：

-report：报告hdfs的基本统计信息。有些信息也可以在namenode web服务首页看到。
-safemode：虽然通常并不需要，但是管理员的确可以手动让namenode进入或离开安全模式。
-finalizeupgrade：删除上一次升级时制作的集群备份。

六、secondary namenode

namenode将对文件系统的改动追加保存到本地文件系统上的一个日志文件（edits）。当一个namenode启动时，它首先从一个映像文件（fsimage）中读取hdfs的状态，接着应用日志文件中的edits操作。然后它将新的hdfs状态写入（fsimage）中，并使用一个空的edits文件开始正常操作。因为namenode只有在启动阶段才合并fsimage和edits，所以久而久之日志文件可能会变得非常庞大，特别是对大型的集群。日志文件太大的另一个副作用是下一次namenode启动会花很长时间。

secondary namenode定期合并fsimage和edits日志，将edits日志文件大小控制在一个限度下。因为内存需求和namenode在一个数量级上，所以通常secondary namenode和namenode运行在不同的机器上。secondary namenode通过bin/start-dfs.sh在conf/masters中指定的节点上启动。

secondary namenode的检查点进程启动，是由两个配置参数控制的：

fs.checkpoint.period，指定连续两次检查点的最大时间间隔，默认值是1小时。
fs.checkpoint.size定义了edits日志文件的最大值，一旦超过这个值会导致强制执行检查点（即使没到检查点的最大时间间隔）。默认值是64mb。

secondary namenode保存最新检查点的目录与namenode的目录结构相同。所以namenode可以在需要的时候读取secondary namenode上的检查点镜像。

如果namenode上除了最新的检查点以外，所有的其他的历史镜像和edits文件都丢失了， namenode可以引入这个最新的检查点。以下操作可以实现这个功能：

在配置参数dfs.name.dir指定的位置建立一个空文件夹；
把检查点目录的位置赋值给配置参数fs.checkpoint.dir；
启动namenode，并加上-importcheckpoint。

namenode会从fs.checkpoint.dir目录读取检查点，并把它保存在dfs.name.dir目录下。如果dfs.name.dir目录下有合法的镜像文件，namenode会启动失败。 namenode会检查fs.checkpoint.dir目录下镜像文件的一致性，但是不会去改动它。

七、rebalancer

hdfs的数据也许并不是非常均匀的分布在各个datanode中。一个常见的原因是在现有的集群上经常会增添新的datanode节点。当新增一个数据块（一个文件的数据被保存在一系列的块中）时，namenode在选择datanode接收这个数据块之前，会考虑到很多因素。其中的一些考虑的是：

将数据块的一个副本放在正在写这个数据块的节点上。
尽量将数据块的不同副本分布在不同的机架上，这样集群可在完全失去某一机架的情况下还能存活。
一个副本通常被放置在和写文件的节点同一机架的某个节点上，这样可以减少跨越机架的网络i/o。
尽量均匀地将hdfs数据分布在集群的datanode中。

由于上述多种考虑需要取舍，数据可能并不会均匀分布在datanode中。hdfs为管理员提供了一个工具，用于分析数据块分布和重新平衡datanode上的数据分布。

八、机架感知（rack awareness）

通常，大型hadoop集群是以机架的形式来组织的，同一个机架上不同节点间的网络状况比不同机架之间的更为理想。另外，namenode设法将数据块副本保存在不同的机架上以提高容错性。hadoop允许集群的管理员通过配置dfs.network.script参数来确定节点所处的机架。当这个脚本配置完毕，每个节点都会运行这个脚本来获取它的机架id。默认的安装假定所有的节点属于同一个机架。

九、安全模式

namenode启动时会从fsimage和edits日志文件中装载文件系统的状态信息，接着它等待各个datanode向它报告它们各自的数据块状态，这样，namenode就不会过早地开始复制数据块，即使在副本充足的情况下。这个阶段，namenode处于安全模式下。namenode的安全模式本质上是hdfs集群的一种只读模式，此时集群不允许任何对文件系统或者数据块修改的操作。通常namenode会在开始阶段自动地退出安全模式。如果需要，你也可以通过'bin/hadoop dfsadmin -safemode'命令显式地将hdfs置于安全模式。namenode首页会显示当前是否处于安全模式。

十、fsck

hdfs支持fsck命令来检查系统中的各种不一致状况。这个命令被设计来报告各种文件存在的问题，比如文件缺少数据块或者副本数目不够。不同于在本地文件系统上传统的fsck工具，这个命令并不会修正它检测到的错误。一般来说，namenode会自动修正大多数可恢复的错误。hdfs的fsck不是一个hadoop shell命令。它通过'bin/hadoop fsck'执行。

十一、升级和回滚

当在一个已有集群上升级hadoop时，像其他的软件升级一样，可能会有新的bug或一些会影响到现有应用的非兼容性变更出现。在任何有实际意义的hdsf系统上，丢失数据是不被允许的，更不用说重新搭建启动hdfs了。hdfs允许管理员退回到之前的hadoop版本，并将集群的状态回滚到升级之前。hdfs在一个时间可以有一个这样的备份。在升级之前，管理员需要用bin/hadoop dfsadmin -finalizeupgrade（升级终结操作）命令删除存在的备份文件。下面简单介绍一下一般的升级过程：

升级 hadoop 软件之前，请检查是否已经存在一个备份，如果存在，可执行升级终结操作删除这个备份。通过dfsadmin -upgradeprogress status命令能够知道是否需要对一个集群执行升级终结操作。
停止集群并部署新版本的hadoop。
使用-upgrade选项运行新的版本（bin/start-dfs.sh -upgrade）。
在大多数情况下，集群都能够正常运行。一旦我们认为新的hdfs运行正常（也许经过几天的操作之后），就可以对之执行升级终结操作。注意，在对一个集群执行升级终结操作之前，删除那些升级前就已经存在的文件并不会真正地释放datanodes上的磁盘空间。
如果需要退回到老版本，
- 停止集群并且部署老版本的hadoop。
- 用回滚选项启动集群（bin/start-dfs.h -rollback）。

十二、文件权限和安全性

这里的文件权限和其他常见平台如linux的文件权限类似。目前，安全性仅限于简单的文件权限。启动namenode的用户被视为hdfs的超级用户。hdfs以后的版本将会支持网络验证协议（比如kerberos）来对用户身份进行验证和对数据进行加密传输。

七、可扩展性

现在，hadoop已经运行在上千个节点的集群上。hdfs集群只有一个namenode节点。目前，namenode上可用内存大小是一个主要的扩展限制。在超大型的集群中，增大hdfs存储文件的平均大小能够增大集群的规模，而不需要增加namenode的内存。默认配置也许并不适合超大规模的集群

Hadoop分布式文件系统使用指南—官方原版

2024年08月06日 • 数据分析 •我要评论