数据库|Chaos Mesh 实战分享丨通过混沌工程验证 GreatDB 分布式部署模式的稳定性 database|mysql

Chaos Mesh 最初作为开源分布式数据库 TiDB 的测试平台而创建，是一个多功能混沌工程平台，通过混沌测试验证分布式系统的稳定性。本文以万里安全数据库软件 GreatDB 分布式部署模式为例，介绍了通过 Chaos Mesh 进行混沌测试的全流程。
需求背景与 GreatDB 介绍需求背景
混沌测试是检测分布式系统不确定性、建立系统弹性信心的一种非常好的方式，因此我们采用开源工具 Chaos Mesh 来做 GreatDB 分布式集群的混沌测试。
GreatDB 分布式部署模式介绍
万里安全数据库软件 GreatDB 是一款关系型数据库软件，同时支持集中式和分布式的部署方式，本文涉及的是分布式部署方式。
分布式部署模式采用 shared-nothing 架构；通过数据冗余与副本管理确保数据库无单点故障；数据 sharding 与分布式并行计算实现数据库系统高性能；可无限制动态扩展数据节点，满足业务需要。
整体架构如下图所示：

文章图片

环境准备 Chaos Mesh 安装
在安装 Chaos Mesh 之前请确保已经预先安装了 helm，docker，并准备好了一个 kubernetes 环境。

使用 Helm 安装

1）在 Helm 仓库中添加 Chaos Mesh 仓库：

helm repo add chaos-mesh https://charts.chaos-mesh.org

2）查看可以安装的 Chaos Mesh 版本：

helm search repo chaos-mesh

3）创建安装 Chaos Mesh 的命名空间：

kubectl create ns chaos-testing

【数据库|Chaos Mesh 实战分享丨通过混沌工程验证 GreatDB 分布式部署模式的稳定性】4）在 docker 环境下安装 Chaos Mesh：

helm install chaos-mesh chaos-mesh/chaos-mesh -n=chaos-testing

验证安装

执行以下命令查看 Chaos Mesh 的运行情况：
kubectl get pod -n chaos-testing
下面是预期输出：

NAMEREADYSTATUSRESTARTSAGEchaos-controller-manager-d7bc9ccb5-dbccq1/1Running026dchaos-daemon-pzxc71/1Running026dchaos-dashboard-5887f7559b-kgz461/1Running126d

如果 3 个 pod 的状态都是 Running，表示 Chaos Mesh 已经成功安装。
准备测试需要的镜像
准备 MySQL 镜像一般情况下，MySQL 使用官方 5.7 版本的镜像，MySQL 监控采集器使用的是 mysqld-exporter，也可以直接从 docker hub 下载：

docker pull mysql:5.7docker pull prom/mysqld-exporter

准备 ZooKeeper 镜像 ZooKeeper 使用的是官方 3.5.5 版本镜像，ZooKeeper 组件涉及的监控有 jmx-prometheus-exporter 和 zookeeper-exporter，均从 docker hub 下载：

docker pull zookeeper:3.5.5docker pull sscaling/jmx-prometheus-exporterdocker pull josdotso/zookeeper-exporter

准备 GreatDB 镜像选择一个 GreatDB 的 tar 包，将其解压得到一个 ./greatdb 目录，再将 greatdb-service-docker.sh 文件拷贝到这个解压出来的./greatdb 目录里：

cp greatdb-service-docker.sh ./greatdb/

将 greatdb Dockerfile 放到./greatdb 文件夹的同级目录下，然后执行以下命令构建 GreatDB 镜像：

docker build -t greatdb/greatdb:tag2021 .

准备 GreatDB 分布式集群部署/清理的镜像下载集群部署脚本 cluster-setup，集群初始化脚本 init-zk 以及集群 helm charts 包（可咨询 4.0 开发/测试组获取）
将上述材料放在同一目录下，编写如下 Dockerfile:

FROM debian:buster-slim as init-zkCOPY ./init-zk /root/init-zkRUN chmod +x /root/init-zkFROM debian:buster-slim as cluster-setup\*# Set aliyun repo for speed*RUN sed -i 's/deb.debian.org/mirrors.aliyun.com/g' /etc/apt/sources.list && \sed -i 's/security.debian.org/mirrors.aliyun.com/g' /etc/apt/sources.listRUN apt-get -y update && \apt-get -y install \curl \wgetRUN curl -L https://storage.googleapis.com/kubernetes-release/release/v1.20.1/bin/linux/amd64/kubectl -o /usr/local/bin/kubectl && \chmod +x /usr/local/bin/kubectl && \mkdir /root/.kube && \wget https://get.helm.sh/helm-v3.5.3-linux-amd64.tar.gz && \tar -zxvf helm-v3.5.3-linux-amd64.tar.gz && \mv linux-amd64/helm /usr/local/bin/helmCOPY ./config /root/.kube/COPY ./helm /helmCOPY ./cluster-setup /

执行以下命令构建所需镜像：

docker build --target init-zk -t greatdb/initzk:latest .docker build --target cluster-setup -t greatdb/cluster-setup:v1 .

准备测试用例的镜像目前测试支持的用例有：bank、bank2、pbank、tpcc、flashback 等，每个用例都是一个可执行文件。
以 flashback 测例为例构建测试用例的镜像，先将用例下载到本地，在用例的同一目录下编写如下内容的 Dockerfile：

FROM debian:buster-slimCOPY ./flashback /RUN cd / && chmod +x ./flashback

执行以下命令构建测试用例镜像：

docker build -t greatdb/testsuite-flashback:v1 .

将准备好的镜像上传到私有仓库中
创建私有仓库和上传镜像操作请参考：https://zhuanlan.zhihu.com/p/78543733
Chaos Mesh 的使用搭建 GreatDB 分布式集群
在上一章中 cluster-setup 目录下执行以下命令块去搭建测试集群：

./cluster-setup\-clustername=c0 \-namespace=test \-enable-monitor=true \-mysql-image=mysql:5.7 \-mysql-replica=3 \-mysql-auth=1 \-mysql-normal=1 \-mysql-global=1 \-mysql-partition=1 \-zookeeper-repository=zookeeper \-zookeeper-tag=3.5.5 \-zookeeper-replica=3 \-greatdb-repository=greatdb/greatdb \-greatdb-tag=tag202110 \-greatdb-replica=3 \-greatdb-serviceHost=172.16.70.249

输出信息：

liuxinle@liuxinle-OptiPlex-5060:~/k8s/cluster-setup$ ./cluster-setup \\> -clustername=c0 \\> -namespace=test \\> -enable-monitor=true \\> -mysql-image=mysql:5.7 \\> -mysql-replica=3 \\> -mysql-auth=1 \\> -mysql-normal=1 \\> -mysql-global=1 \\> -mysql-partition=1 \\> -zookeeper-repository=zookeeper \\> -zookeeper-tag=3.5.5 \\> -zookeeper-replica=3 \\> -greatdb-repository=greatdb/greatdb \\> -greatdb-tag=tag202110 \\> -greatdb-replica=3 \\> -greatdb-serviceHost=172.16.70.249INFO[2021-10-14T10:41:52+08:00] SetUp the cluster ...NameSpace=testINFO[2021-10-14T10:41:52+08:00] create namespace ...INFO[2021-10-14T10:41:57+08:00] copy helm chart templates ...INFO[2021-10-14T10:41:57+08:00] setup ...Component=MySQLINFO[2021-10-14T10:41:57+08:00] exec helm install and update greatdb-cfg.yaml ... INFO[2021-10-14T10:42:00+08:00] waiting mysql pods running ...INFO[2021-10-14T10:44:27+08:00] setup ...Component=ZookeeperINFO[2021-10-14T10:44:28+08:00] waiting zookeeper pods running ...INFO[2021-10-14T10:46:59+08:00] update greatdb-cfg.yamlINFO[2021-10-14T10:46:59+08:00] setup ...Component=greatdbINFO[2021-10-14T10:47:00+08:00] waiting greatdb pods running ...INFO[2021-10-14T10:47:21+08:00] waiting cluster running ...INFO[2021-10-14T10:47:27+08:00] waiting prometheus server running...INFO[2021-10-14T10:47:27+08:00] Dump Cluster InfoINFO[2021-10-14T10:47:27+08:00] SetUp success.ClusterName=c0 NameSpace=test

执行如下命令，查看集群 pod 状态：

kubectl get pod -n test -o wide

输出信息：

NAMEREADYSTATUSRESTARTSAGEIPNODENOMINATED NODEREADINESS GATESc0-auth0-mysql-02/2Running010m10.244.87.18liuxinle-optiplex-5060c0-auth0-mysql-12/2Running09m23s10.244.87.54liuxinle-optiplex-5060c0-auth0-mysql-22/2Running08m39s10.244.87.57liuxinle-optiplex-5060c0-greatdb-02/2Running15m3s10.244.87.58liuxinle-optiplex-5060c0-greatdb-12/2Running04m57s10.244.87.20liuxinle-optiplex-5060c0-greatdb-22/2Running04m50s10.244.87.47liuxinle-optiplex-5060c0-glob0-mysql-02/2Running010m10.244.87.51liuxinle-optiplex-5060c0-glob0-mysql-12/2Running09m23s10.244.87.41liuxinle-optiplex-5060c0-glob0-mysql-22/2Running08m38s10.244.87.60liuxinle-optiplex-5060c0-nor0-mysql-02/2Running010m10.244.87.29liuxinle-optiplex-5060c0-nor0-mysql-12/2Running09m29s10.244.87.4liuxinle-optiplex-5060c0-nor0-mysql-22/2Running08m45s10.244.87.25liuxinle-optiplex-5060c0-par0-mysql-02/2Running010m10.244.87.55liuxinle-optiplex-5060c0-par0-mysql-12/2Running09m26s10.244.87.13liuxinle-optiplex-5060c0-par0-mysql-22/2Running08m42s10.244.87.21liuxinle-optiplex-5060c0-prometheus-server-6697649b76-fkvh92/2Running04m36s10.244.87.37liuxinle-optiplex-5060c0-zookeeper-01/1Running17m35s10.244.87.44liuxinle-optiplex-5060c0-zookeeper-11/1Running06m41s10.244.87.30liuxinle-optiplex-5060c0-zookeeper-21/1Running06m10s10.244.87.49liuxinle-optiplex-5060c0-zookeeper-initzk-7hbfs0/1Completed07m35s10.244.87.17liuxinle-optiplex-5060

看到 c0-zookeeper-initzk-7hbfs 的状态是 Completed，其他 pod 的状态为 Running，表示集群搭建成功。
在 GreatDB 分布式集群中使用 Chaos Mesh 做混沌测试
Chaos Mesh 在 kubernetes 环境支持注入的故障类型包括：模拟 Pod 故障、模拟网络故障、模拟压力场景等，这里我们以模拟 Pod 故障中的 pod-kill 为例。
将实验配置写入到文件中 pod-kill.yaml，内容示例如下：

apiVersion: chaos-mesh.org/v1alpha1kind: PodChaos*# 要注入的故障类型*metadata:name: pod-failure-examplenamespace: test*# 测试集群pod所在的namespace*spec:action: pod-kill*# 要注入的具体故障类型*mode: all*# 指定实验的运行方式，all（表示选出所有符合条件的 Pod）*duration: '30s'*# 指定实验的持续时间* selector: labelSelectors:"app.kubernetes.io/component": "greatdb"*# 指定注入故障目标pod的标签，通过kubectl describe pod c0-greatdb-1 -n test 命令返回结果中Labels后的内容得到*

创建故障实验，命令如下：

kubectl create -n test -f pod-kill.yaml

创建完故障实验之后，执行命令 kubectl get pod -n test -o wide 结果如下：

NAMEREADYSTATUSRESTARTSAGEIPNODENOMINATED NODEREADINESS GATESc0-auth0-mysql-02/2Running014m10.244.87.18liuxinle-optiplex-5060c0-auth0-mysql-12/2Running014m10.244.87.54liuxinle-optiplex-5060c0-auth0-mysql-22/2Running013m10.244.87.57liuxinle-optiplex-5060c0-greatdb-00/2ContainerCreating02sliuxinle-optiplex-5060c0-greatdb-10/2ContainerCreating02sliuxinle-optiplex-5060c0-glob0-mysql-02/2Running014m10.244.87.51liuxinle-optiplex-5060c0-glob0-mysql-12/2Running014m10.244.87.41liuxinle-optiplex-5060c0-glob0-mysql-22/2Running013m10.244.87.60liuxinle-optiplex-5060c0-nor0-mysql-02/2Running014m10.244.87.29liuxinle-optiplex-5060c0-nor0-mysql-12/2Running014m10.244.87.4liuxinle-optiplex-5060c0-nor0-mysql-22/2Running013m10.244.87.25liuxinle-optiplex-5060c0-par0-mysql-02/2Running014m10.244.87.55liuxinle-optiplex-5060c0-par0-mysql-12/2Running014m10.244.87.13liuxinle-optiplex-5060c0-par0-mysql-22/2Running013m10.244.87.21liuxinle-optiplex-5060c0-prometheus-server-6697649b76-fkvh92/2Running09m24s10.244.87.37liuxinle-optiplex-5060c0-zookeeper-01/1Running112m10.244.87.44liuxinle-optiplex-5060c0-zookeeper-11/1Running011m10.244.87.30liuxinle-optiplex-5060c0-zookeeper-21/1Running010m10.244.87.49liuxinle-optiplex-5060c0-zookeeper-initzk-7hbfs0/1Completed012m10.244.87.17liuxinle-optiplex-5060

可以看到有带 greatdb 名字的 pod 正在被重启，说明注入故障成功。
在 Argo 中编排测试流程 Argo 是一个开源的容器本地工作流引擎，用于在 Kubernetes 上完成工作，可以将多步骤工作流建模为一系列任务，完成测试流程编排。
我们使用 argo 定义一个测试任务，基本的测试流程是固定的，如下所示：

数据库|Chaos Mesh 实战分享丨通过混沌工程验证 GreatDB 分布式部署模式的稳定性

文章图片

测试流程的 step1 是部署测试集群，接着开启两个并行任务，step2 跑测试用例，模拟业务场景，step3 同时使用 Chaos Mesh 注入故障，step2 的测试用例执行结束之后，step4 终止故障注入，最后 step5 清理集群环境。
用 Argo 编排一个混沌测试工作流（以 flashback 测试用例为例)
1）修改 cluster-setup.yaml 中的 image 信息，改成步骤“准备测试需要的镜像”中自己传上去的集群部署/清理镜像名和 tag
2）修改 testsuite-flashback.yaml 中的 image 信息，改成步骤“准备测试需要的镜像”中自己传上去的测试用例镜像名和 tag
3）将集群部署、测试用例和工具模板的 yaml 文件全部使用 kubectl apply -n argo -f xxx.yaml 命令创建资源（这些文件定义了一些 argo template，方便用户写 workflow 时候使用）

kubectl apply -n argo -f cluster-setup.yamlkubectl apply -n argo -f testsuite-flashback.yamlkubectl apply -n argo -f tools-template.yaml

4）复制一份 workflow 模板文件 workflow-template.yaml，将模板文件中注释提示的部分修改为自己的设置即可，然后执行以下命令创建混沌测试工作流：

kubectl apply -n argo -f workflow-template.yaml

以下是一份 workflow 模板文件：

apiVersion: argoproj.io/v1alpha1 kind: Workflow metadata: generateName: chaostest-c0-0- name: chaostest-c0-0 namespace: argo spec: entrypoint: test-entry #测试入口，在这里传入测试参数，填写clustername、namespace、host、greatdb镜像名和tag名等基本信息 serviceAccountName: argo arguments: parameters: - name: clustername value: c0 - name: namespace value: test - name: host value: 172.16.70.249 - name: port value: 30901 - name: password value: Bgview@2020 - name: user value: root - name: run-time value: 10m - name: greatdb-repository value: greatdb/greatdb - name: greatdb-tag value: tag202110 - name: nemesis value: kill_mysql_normal_master,kill_mysql_normal_slave,kill_mysql_partition_master,kill_mysql_partition_slave,kill_mysql_auth_master,kill_mysql_auth_slave,kill_mysql_global_master,kill_mysql_global_slave,kill_mysql_master,kill_mysql_slave,net_partition_mysql_normal,net_partition_mysql_partition,net_partition_mysql_auth,net_partition_mysql_global - name: mysql-partition value: 1 - name: mysql-global value: 1 - name: mysql-auth value: 1 - name: mysql-normal value: 2 templates: - name: test-entry steps: - - name: setup-greatdb-cluster# step.1 集群部署. 请指定正确的参数，主要是mysql和zookeeper的镜像名、tag名 templateRef: name: cluster-setup-template template: cluster-setup arguments: parameters: - name: namespace value: "{{workflow.parameters.namespace}}" - name: clustername value: "{{workflow.parameters.clustername}}" - name: mysql-image value: mysql:5.7.34 - name: mysql-replica value: 3 - name: mysql-auth value: "{{workflow.parameters.mysql-auth}}" - name: mysql-normal value: "{{workflow.parameters.mysql-normal}}" - name: mysql-partition value: "{{workflow.parameters.mysql-partition}}" - name: mysql-global value: "{{workflow.parameters.mysql-global}}" - name: enable-monitor value: false - name: zookeeper-repository value: zookeeper - name: zookeeper-tag value: 3.5.5 - name: zookeeper-replica value: 3 - name: greatdb-repository value: "{{workflow.parameters.greatdb-repository}}" - name: greatdb-tag value: "{{workflow.parameters.greatdb-tag}}" - name: greatdb-replica value: 3 - name: greatdb-serviceHost value: "{{workflow.parameters.host}}" - name: greatdb-servicePort value: "{{workflow.parameters.port}}" - - name: run-flashbacktest# step.2 运行测试用例,请替换为你要运行的测试用例template并指定正确的参数，主要是测试使用的表个数和大小 templateRef: name: flashback-test-template template: flashback arguments: parameters: - name: user value: "{{workflow.parameters.user}}" - name: password value: "{{workflow.parameters.password}}" - name: host value: "{{workflow.parameters.host}}" - name: port value: "{{workflow.parameters.port}}" - name: concurrency value: 16 - name: size value: 10000 - name: tables value: 10 - name: run-time value: "{{workflow.parameters.run-time}}" - name: single-statement value: true - name: manage-statement value: true - name: invoke-chaos-for-flashabck-test# step.3 注入故障，请指定正确的参数，这里run-time和interval分别定义了故障注入的时间和频次，因此省略掉了终止故障注入步骤 templateRef: name: chaos-rto-template template: chaos-rto arguments: parameters: - name: user value: "{{workflow.parameters.user}}" - name: host value: "{{workflow.parameters.host}}" - name: password value: "{{workflow.parameters.password}}" - name: port value: "{{workflow.parameters.port}}" - name: k8s-config value: /root/.kube/config - name: namespace value: "{{workflow.parameters.namespace}}" - name: clustername value: "{{workflow.parameters.clustername}}" - name: prometheus value: '' - name: greatdb-job value: greatdb-monitor-greatdb - name: nemesis value: "{{workflow.parameters.nemesis}}" - name: nemesis-duration value: 1m - name: nemesis-mode value: default - name: wait-time value: 5m - name: check-time value: 5m - name: nemesis-scope value: 1 - name: nemesis-log value: true - name: enable-monitor value: false - name: run-time value: "{{workflow.parameters.run-time}}" - name: interval value: 1m - name: monitor-log value: false - name: enable-rto value: false - name: rto-qps value: 0.1 - name: rto-warm value: 5m - name: rto-time value: 1m - name: log-level value: debug - - name: flashbacktest-output# 输出测试用例是否通过的结果 templateRef: name: tools-template template: output-result arguments: parameters: - name: info value: "flashback test pass, with nemesis: {{workflow.parameters.nemesis}}" - - name: clean-greatdb-cluster# step.4 清理测试集群，这里的参数和step.1的参数一致 templateRef: name: cluster-setup-template template: cluster-setup arguments: parameters: - name: namespace value: "{{workflow.parameters.namespace}}" - name: clustername value: "{{workflow.parameters.clustername}}" - name: mysql-image value: mysql:5.7 - name: mysql-replica value: 3 - name: mysql-auth value: "{{workflow.parameters.mysql-auth}}" - name: mysql-normal value: "{{workflow.parameters.mysql-normal}}" - name: mysql-partition value: "{{workflow.parameters.mysql-partition}}" - name: mysql-global value: "{{workflow.parameters.mysql-global}}" - name: enable-monitor value: false - name: zookeeper-repository value: zookeeper - name: zookeeper-tag value: 3.5.5 - name: zookeeper-replica value: 3 - name: greatdb-repository value: "{{workflow.parameters.greatdb-repository}}" - name: greatdb-tag value: "{{workflow.parameters.greatdb-tag}}" - name: greatdb-replica value: 3 - name: greatdb-serviceHost value: "{{workflow.parameters.host}}" - name: greatdb-servicePort value: "{{workflow.parameters.port}}" - name: clean value: true - - name: echo-result templateRef: name: tools-template template: echo arguments: parameters: - name: info value: "{{item}}" withItems: - "{{steps.flashbacktest-output.outputs.parameters.result}}"

至此，你已经成功使用 Chaos Mesh 进行了一次混沌测试，并成功验证了分布式系统的稳定性。
Now enjoy GreatSQL, and enjoy Chaos Mesh