sealos 添加node NotReady 处理

发布时间 2023-04-04 19:20:05作者: 超我
  1. 问题说明:
    1. 生产环境 K8s 1.24.0 版本
    2. sealos 4.0.0 版本
    3. 操作系统 Centos 7.6 内核 5.4
    4. 出现问题: (prod 环境需要增加节点来应对线上业务的压力. 截止目前所有节点资源内存使用均在70%左右)
    5. 执行: sealos add --nodes 10.0.0.116 时出现添加失败, 缺少基础文件的情况, 在成功添加节点后2分钟 集群剩余节点都变为 NotReady 状态, 后端服务正常运行一段时间后, 都停掉, 整个影响线上业务的访问和使用.
  2.   排查思路:
    1. 检查节点的状态,
      1. kubectl describe no node1
      2. 发现节点kublet False 不能用
      3. 查看coredns 是否正常运行
      4. 重启节点 containerd kubelet 服务, k8s 等一会儿健康机制会重新拉取服务为正常状态
    2. 添加节点出现缺少cni 网络插件, 需要从主节点拷贝等操作
    3. 对比排查sealos 版本, 官网未做说明 4.0.0 版本能维护 k8s 1.24.0 版本
    4. 最后尝试升级sealos 版本为最新 4.1.7 版本解决添加节点的问题, (4.1.0 都未能解决正常添加节点的问题)