Etcd集群换机导致etcd集群不可用

发布时间 2023-10-18 00:56:26作者: 百因必有果

背景:

      因为工作中有nj地域需要下线,需要我所有地域的机器包括vip全部换成其他临近地域

问题:

      集群中的etcd正常替换,当时保持的是平移,由于历史原因,之前的同学上线都是手动变更,没有发起上线,导致使用的之前的版本,导致etcd只能读,不能写入,而且etcd监控查询是不健康的状态

排查:

      检查了etcd的进程,是正常的

      检查了端口,是正常的

      查看日志的时候,看报错是超出了配置文件的参数,最开始是0,表示默认,但是之前出过case集群dbsize有20G,导致集群的变更出现延迟,集群中list等操作延迟非常高

处理方法:

      找到集群的主节点和从节点,首先更改从节点的配置更改到8G,然后发起重启,最后重启主节点,(注:查阅资料etcd集群的不超过8G性能最佳)