架构师之路-如何建立高可用消息中间件kafka？( 五 ) _经验知识

3.6 Leader选举
一条消息只有被ISR中的所有follower都从leader复制过去才会被认为已提交。这样就避免了部分数据被写进了leader 。还没来得及被任何follower复制就宕机了。而造成数据丢失。而对于producer而言。它可以选择是否等待消息commit 。这可以通过request.required.acks来设置。这种机制确保了只要ISR中有一个或者以上的follower 。一条被commit的消息就不会丢失。
有一个很重要的问题是当leader宕机了。怎样在follower中选举出新的leader 。因为follower可能落后很多或者直接crash了。所以必须确保选择“最新”的follower作为新的leader 。一个基本的原则就是。如果leader不在了。新的leader必须拥有原来的leader commit的所有消息。这就需要做一个折中。如果leader在表名一个消息被commit前等待更多的follower确认。那么在它挂掉之后就有更多的follower可以成为新的leader 。但这也会造成吞吐率的下降。
一种非常常用的选举leader的方式是“少数服从多数” 。Kafka并不是采用这种方式。这种模式下。如果我们有2f+1个副本。那么在commit之前必须保证有f+1个replica复制完消息。同时为了保证能正确选举出新的leader 。失败的副本数不能超过f个。这种方式有个很大的优势。系统的延迟取决于最快的几台机器。也就是说比如副本数为3 。那么延迟就取决于最快的那个follower而不是最慢的那个。
“少数服从多数”的方式也有一些劣势。为了保证leader选举的正常进行。它所能容忍的失败的follower数比较少。如果要容忍1个follower挂掉。那么至少要3个以上的副本。如果要容忍2个follower挂掉。必须要有5个以上的副本。也就是说。在生产环境下为了保证较高的容错率。必须要有大量的副本。而大量的副本又会在大数据量下导致性能的急剧下降。这种算法更多用在Zookeeper这种共享集群配置的系统中而很少在需要大量数据的系统中使用的原因。HDFS的HA功能也是基于“少数服从多数”的方式。但是其数据存储并不是采用这样的方式。
实际上。leader选举的算法非常多。比如Zookeeper的Zab、Raft以及Viewstamped Replication 。而Kafka所使用的leader选举算法更像是微软的PacificA算法。
Kafka在Zookeeper中为每一个partition动态的维护了一个ISR 。这个ISR里的所有replica都跟上了leader 。只有ISR里的成员才能有被选为leader的可能（unclean.leader.election.enable=false）。在这种模式下。对于f+1个副本。一个Kafka topic能在保证不丢失已经commit消息的前提下容忍f个副本的失败。在大多数使用场景下。这种模式是十分有利的。事实上。为了容忍f个副本的失败。“少数服从多数”的方式和ISR在commit前需要等待的副本的数量是一样的。但是ISR需要的总的副本的个数几乎是“少数服从多数”的方式的一半。
上文提到。在ISR中至少有一个follower时。Kafka可以确保已经commit的数据不丢失。但如果某一个partition的所有replica都挂了。就无法保证数据不丢失了。这种情况下有两种可行的方案：
等待ISR中任意一个replica“活”过来。并且选它作为leader
选择第一个“活”过来的replica（并不一定是在ISR中）作为leader
这就需要在可用性和一致性当中作出一个简单的抉择。如果一定要等待ISR中的replica“活”过来。那不可用的时间就可能会相对较长。而且如果ISR中所有的replica都无法“活”过来了。或者数据丢失了。这个partition将永远不可用。选择第一个“活”过来的replica作为leader,而这个replica不是ISR中的replica,那即使它并不保障已经包含了所有已commit的消息。它也会成为leader而作为consumer的数据源。默认情况下。Kafka采用第二种策略。即unclean.leader.election.enable=true 。也可以将此参数设置为false来启用第一种策略。
unclean.leader.election.enable这个参数对于leader的选举、系统的可用性以及数据的可靠性都有至关重要的影响。下面我们来分析下几种典型的场景。
如果上图所示。假设某个partition中的副本数为3 。replica-0, replica-1, replica-2分别存放在broker0, broker1和broker2中。AR=(0,1,2) 。ISR=(0,1) 。设置request.required.acks=-1, min.insync.replicas=2 。unclean.leader.election.enable=false 。这里讲broker0中的副本也称之为broker0起初broker0为leader 。broker1为follower 。
当ISR中的replica-0出现crash的情况时。broker1选举为新的leader[ISR=(1)] 。因为受min.insync.replicas=2影响。write不能服务。但是read能继续正常服务。此种情况恢复方案：
尝试恢复(重启)replica-0 。如果能起来。系统正常；

架构师之路-如何建立高可用消息中间件kafka？( 五 )

推荐阅读

词法分析器python代码,编译原理词法分析器怎么实现检测代码

民国时期桂系军阀为什么说厉害

尼康怎么把镜头取下来尼康镜头怎么取下

pyramid怎么读英语 pyramid怎么读

做红烧肉需要先焯水吗做红烧肉要不要先焯水

射飞镖的正确姿势

mysql服务怎么安装实体服务器安装mysql

如何理解子罕弗受玉这个典故？

被诈骗信用卡还不上怎么办如果被信用卡起诉诈骗还不起怎么办

无花果的皮能吃吗

如何正确设置爱普生3118打印机墨水，避免使用黑色墨水

国人如果到韩国大邱旅游,一定不能错过的要属大邱前山公园了大邱有哪些好玩的地方

云顶之弈约德尔元素枪手流阵容配置约德尔元素枪手玩法心得

热水器如何选择省电又安全的型号？

美国制造了一个相当危险的先例美国制造了一个相当危险的先例

电商软件哪个好大兴区电商软件是什么，大兴新闻

实例讲解OSGI开发

经期后什么时间吃驴胶补血颗粒为好

只需三步，轻松解决问题 9020粉盒清零方法大揭秘

广东黄瓜和青瓜的区别为什么黄瓜叫黄瓜