Hadoop HDFS 高可用 hadoop

Hadoop HDFS高可用（HA） 1.为什么需要HA
当客户端一次操作时，先写edits，然后写fsnameSystem内存，secondnamenode周期性下载edits文件，同时把fsimage下载下来，然后把edits与fsimage合并，加载到内存中形成新的原数据。最后在持久化成一个文件（fsimage最新的fsimage)发送到namenode替换成最新的fsimage.
一旦Namenode出现故障，整个集群将不可用，重启或者开启一个新的Namenode才能够从中恢复。Secondary Namenode并没有提供故障转移的能力。集群的可用性受到影响表现在：

当机器发生故障，如断电时，管理员必须重启Namenode才能恢复可用。
在日常的维护升级中，需要停止Namenode，也会导致集群一段时间不可用。

2.HA概述
【Hadoop HDFS 高可用】Hadoop HA（High Available）通过同时配置两个Namenode来解决上述问题，分别叫Active Namenode和Standby Namenode. Standby Namenode作为热备份，从而允许在机器发生故障时能够快速进行故障转移。Namenode只能配置一主一备，不能多于两个Namenode。
3.原理
主Namenode处理所有的操作请求（读写），而Standby只是作为slave，维护尽可能同步的状态，使得故障时能够快速切换到Standby。为了使Standby Namenode与Active Namenode数据保持同步，两个Namenode都与一组Journal Node进行通信。当主Namenode进行任务的namespace操作时，都会确保持久会修改日志到Journal Node节点中的大部分。Standby Namenode持续监控这些edit，当监测到变化时，将这些修改应用到自己的namespace。
当进行故障转移时，Standby在成为Active Namenode之前，会确保自己已经读取了Journal Node中的所有edit日志，从而保持数据状态与故障发生前一致。
为了确保故障转移能够快速完成，Standby Namenode需要维护最新的Block位置信息，即每个Block副本存放在集群中的哪些节点上。为了达到这一点，Datanode同时配置主备两个Namenode，并同时发送Block报告和心跳到两台Namenode。
确保任何时刻只有一个Namenode处于Active状态非常重要，否则可能出现数据丢失或者数据损坏。当两台Namenode都认为自己的Active Namenode时，会同时尝试写入数据（不会再去检测和同步数据）。为了防止这种脑裂现象，Journal Nodes只允许一个Namenode写入数据，内部通过维护epoch数来控制，从而安全地进行故障转移。
4. QJM
QJM（Quorum Journal Manager）是Hadoop专门为Namenode共享存储开发的组件。其集群运行一组Journal Node，每个Journal 节点暴露一个简单的RPC接口，允许Namenode读取和写入数据，数据存放在Journal节点的本地磁盘。当Namenode写入edit log时，它向集群的所有Journal Node发送写入请求，当多数节点回复确认成功写入之后，edit log就认为是成功写入。例如有3个Journal Node，Namenode如果收到来自2个节点的确认消息，则认为写入成功
5. ZKFC
为了支持故障转移，Hadoop引入两个新的组件：Zookeeper Quorum和ZKFailoverController process（简称ZKFC）。在故障自动转移的处理上，引入了监控Namenode状态的，ZKFC一般运行在Namenode的宿主机器上，与Zookeeper集群协作完成故障的自动转移。
Zookeeper的任务包括：

失败检测：每个Namnode都在ZK中维护一个持久性session，如果Namnode故障，session过期，使用zk的事件机制通知其他Namenode需要故障转移。
Namenode选举：如果当前Active namenode挂了，另一个namenode会尝试获取ZK中的一个排它锁，获取这个锁就表名它将成为下一个Active NN。

在每个Namenode守护进程的机器上，同时也会运行一个ZKFC，用于完成以下任务：

Namenode健康健康
ZK Session管理
基于ZK的Namenode选举

6. 解决脑裂问题JournalNode fencing
Journal Node通过epoch（时间上的一点）数来解决脑裂的问题，称为JournalNode fencing。具体工作原理如下：

当Namenode变成Active状态时，被分配一个整型的epoch数，这个epoch数是独一无二的，并且比之前所有Namenode持有的epoch number都高。
当Namenode向Journal Node发送消息的时候，同时也带上了epoch。当Journal Node收到消息时，将收到的epoch数与存储在本地的promised epoch比较，如果收到的epoch比自己的大，则使用收到的epoch更新自己本地的epoch数。如果收到的比本地的epoch小，则拒绝请求。
edit log必须写入大部分节点才算成功，也就是其epoch要比大多数节点的epoch高。

7. 部署与配置

Namenode机器：运行Active Namenode和Standby Namenode的机器配置应保持一样，也与不使用HA情况下的配置一样。
JournalNode机器：运行JournalNode的机器，这些守护进程比较轻量级，所以可以将其部署在Namenode或者YARN ResourceManager。至少需要部署3个Journalnode节点，以便容忍一个节点故障。通常配置成奇数，例如总数为N，则可以容忍（N-1）/2台机器发生故障后集群仍然可以正常工作。
需要注意的是，Standby Namenode同时完成了原来Secondary namenode的checkpoint功能，因此不需要独立再部署Secondary namenode。