记一次pod被大量驱逐问题处理

发布时间 2023-09-20 10:31:10作者: 要快乐不要emo

记一次pod被大量驱逐问题处理

1、现象描述

业务侧反馈在白屏界面同一应用存在大量实例,且状态为Evicted,黑屏查看缺少存在大量被驱逐pod,先将其delete掉,过了一个周末又出现大量被驱逐

2、问题排查

# describe pod 查看pod事件,发现evnets为空,查看message 发现为磁盘压力大,记录pod所在节点ip
# ssh到节点
1、查看kubelet对驱逐压力配置,为85%
2、查看kubelet日志,定位被驱逐的时间
3、打开监控查看对应时间节点磁盘监控信息,发现为sdb1磁盘
4、df 查看sdb1磁盘(某些节点可能由于pod被驱逐后对不使用pvc的磁盘进行清理所以不会再有磁盘压力,可以尝试从监控找出被驱逐后仍工作的节点进行排查)
5、du 统计那些文件占用过大,发现是overlay2目录下占用过大
6、通过文件目录定位到容器
7、进入容器查看哪些文件占用过大,发现为业务日志已经写入了好几十个G,和业务方沟通对日志进行切割,待后续观察看是否还会存在此问题