NMI watchdog :BUG:softlockup 解决方案

发布时间 2023-06-13 18:05:15作者: LB_运维技术

问题现象:

解决方案:

解决办法:
设置为30s覆盖到配置文件中
echo 30 > /proc/sys/kernel/watchdog_thresh 查看tail -1 /proc/sys/kernel/watchdog_thresh
30临时生效
sysctl -w kernel.watchdog_thresh=30
常见原因:
1>服务器电源供电不足,导致CPU电压不稳导致CPU死锁
2>vcpus超过物理cpu实际核数
3>虚机所在的宿主机的CPU负载较高或磁盘IO太高
4>虚机CPU负载较高或磁盘IO太高
5>VM网卡驱动存在bug,处理高水位流量时存在bug导致CPU死锁
6>BIOS开启了超频,导致超频时电压不稳,容易出现CPU死锁
本次出现的原因是:
因为开启多台虚拟机vcpu数量超过实际物理核数,同时虚拟机作为NFS 服务端磁盘IO也比较高

-- 永久生效
echo 30 > /proc/sys/kernel/watchdog_thresh
-- 临时生效
sysctl -w kernel.watchdog_thresh=30
可以通过修改/proc/sys/kernel/softlockup_thresh来修改超时的阈值

 

说明:该解决方案不具备权威性 以实际情况为重