随着信息化的越来越迅速,大家也开始在线上答疑解惑;因此我们也为负载均衡-心跳missing提供了一个解决方案,大家一起看看吧!
l 确认问题
我们有两台A10设备出现心跳异常,两台设备都没办法互相ping通对端心跳IP;其中1台设备的LOG日志出现大量VRRP-A异常记录
这种异常现象之前也有短暂出现,在10月5日开始出现频繁,几乎每几秒就会产生一条这种日志告警记录。故障对实际业务还没有出现影响,但由于A10 设备无法自行恢复同步,还需要对A10进行故障排查。
两台设备分别对应LC01和LC02来进行心跳通信,正常情况下,LC01和LC02可以互相ping通对方的心跳IP,,二者也可以通过心跳IP进行配置同步。
开始以下故障排查:
a.在LC02设备上查看log日志,发现确实存在大量vrrp-a missing日志
b.分别在LC01和LC02上进行对端ping测试,发现无法ping通对端VRRP-A IP
c.检查了LC01和LC02的trunk 1状态,所有成员端口UP,也未发现异常
d.在LC01和LC02上使用show vrrp-a命令检查vrrp-a状态,LC01无法发现LC02 ,LC02却可以发现LC01:
e.检查物理线路状态灯,所有端口正常亮灯
f.进入调试模式对设备的线路流量进行测试
结果发现,LC01可以通过port5和port6发出包,但LC02只有port6收到了包,任何通过port5的包都被丢弃了。
所以我们分析可能是某台设备port5的链路或者端口出现了异常导致链路故障,因此决定先将port5关闭。
进行了测试操作:
1.先将备机锁定为强制备状态,检查当前链路连接,LC01和LC02均可以使用port6正常收包;查看vrrp-a信息,查看vrrp missed数据包,数据无异,可以正常ping通对端心跳。
2.要确认两台设备的port5之间存在异常,使用port4替代了port5加入心跳组;同样操作后的结果是Port4和port6也可以正常收包和正常ping通对端心跳IP。
l 得出结论
A10的链路聚合静态模式不会检测对端端口状态,数据包仍会发送到故障端口。备机LC02的port 5存在收包故障,所有发向该口的数据包都会被丢弃;LC01(Active)从port5和port6发送流量,但是LC02(standby)没有接收到port5上过来的流量,导致A10的同步功能出现异常。
l 解决问题
更换聚合组成员端口,将两台设备的port 5撤出聚合组,使用port 4取代port 5加入聚合
l 优化方案
将A10的心跳链路聚合由静态模式更改为LACP动态模式,可以提升链路的故障检测能力。
两台A10按步骤分别执行以下操作:
1.先将所有聚合组成员撤出聚合组,否则无法修改聚合组模式
2.重新创建trunk 1,使用动态LACP模式,并设置超时检测时间为短
3.由于修改了trunk 1,所以以下vrrp配置需要重新指定
你会解决负载均衡-心跳missing了吗?如果有问题可以留言,带你看不一样的IT世界,我们下期再见!