【elasticsearch】22、集群分布式模型及选主与脑裂问题

2021-08-31

分布式特性

elasticsearch的分布式架构带来的好处
- 存储的水平扩容，支持pb级的数据
- 提高系统的可用性，部分节点停止服务，整个集群的服务不受影响
elasticsearch的分布式架构
- 不同集群通过不同的名字区分，默认名字“elasticsearch”
- 通过配置文件修改，或者在命令行中 -E cluster.name=cutie进行设定

节点

节点是一个elasticsearch的实例
- 其本质上就是一个java进程
- 一台机器上可以运行多个elasticsearch进程，但是生产环境一般建议一台机器上就运行一个elasticsearch实例
每一个节点都有名字，通过配置文件配置，或者启动的时候 -E node.name=cutie指定
每一个节点在启动之后，会分配一个uid，保存在data目录下

coordinating node

处理请求的节点，叫coordinating node
- 路由请求到正确的节点，例如创建索引的请求，需要路由到master
所有的节点默认都是 coordinating node
通过将其他类型设置成false，使其成为dedicated coordinating node

demo - 启动节点，cerebro介绍

启动一个节点
- bin/elasticsearch -E node.name=node1 -E cluster.name=cutie -E path.data=https://www.it610.com/article/node1_data -E http.port=9200
https://github.com/lmenezes/cerebro/release
- overview / filter by node / index
- nodes
- rest / more
- health status

data node

可以保存数据的节点，叫做data node
- 节点启动后，默认就是数据节点，可以设置node.data:false禁止
data node的职责
- 保存分片数据，在数据拓展上启到了至关重要的作用，由master node决定如何把分片分发啊哦数据节点上
通过增加数据节点
- 可以解决数据水平拓展和解决数据单点问题

master node

master node的职责
- 处理创建，删除索引等请求 / 决定分片被分配到哪个节点 / 负责索引的创建与删除
- 维护并且更新cluster state
master node 的最佳实践
- master节点非常重要，在部署上需要考虑解决单点的问题
- 为一个集群设置多个master节点/每个节点值承担master的单一角色

master eligible nodes & 选主流程

一个集群，支持配置多个master eligible节点，这些节点可以在必要的时候，如master节点出现故障，网络故障时，参与选主流程，成为master节点
每个节点启动后，默认就是一个master eligible节点
- 可以设置mode.master:false禁止
当集群内第一个master eligible节点启动的时候，它会将自己选举程master节点
互相ping对方，node id低的会成为被选举的节点
【【elasticsearch】22、集群分布式模型及选主与脑裂问题】其他节点会加入集群，但是不承担master节点的角色，一旦发现被选中的主节点丢失，就会选举出新的master节点

文章图片
image.png

脑裂问题

split-brain，分布式系统的经典网络问题，当出现网络问题，一个节点和其他节点无法连接
- node 2和node 3会重新选举master
- node 1自己还是作为master，组成一个集群，同时更新cluster state
- 导致有2个master，维护不同的cluster state，当网络恢复的时候，无法选择正确恢复

【elasticsearch】22、集群分布式模型及选主与脑裂问题

文章图片
image.png 如何避免脑裂问题

限定一个选举条件，设置quorum（仲裁），只有在master eligible节点数大于quorum时候，才能进行选举
- quorum = （master节点总数/2）+1
- 当3个master eligible时，设置discovery.zen.minimum_master_nodes为2，即可避免脑裂
从7.0开始，无需这个配置
- 移除minimum_master_nodes参数，让elasticsearch自己选择可以形成仲裁的节点
- 典型的主节点选举现在只需要很短时间就可以完成，集群的伸缩变得更安全，更容易，并且可能造成的丢失数据的系统配置选项更少了
- 节点更清楚地记录它们的状态，有助于诊断为什么它们不能加入集群或为什么无法选举出主节点

配置节点类型

一个节点默认情况下是一个master eligible，data and ingest node

节点类型	配置参数	默认值
data eligible	node.master	true
data	node.data	true
ingest	node.ingest	true
coordinating only	无	设置上面三个参数全部为false
machine learning	node.xml	true（需要enable x-pack）

推荐阅读

上一篇：飘雪的日子

下一篇：expressjs如何配置自有证书https服务