久壳教你负载均衡-心跳missing怎么解决!

发布时间 2023-05-04 17:16:26作者: Ben-jocel

随着信息化的越来越迅速,大家也开始在线上答疑解惑;因此我们也为负载均衡-心跳missing提供了一个解决方案,大家一起看看吧!

l 确认问题

 我们有两台A10设备出现心跳异常,两台设备都没办法互相ping通对端心跳IP;其中1台设备的LOG日志出现大量VRRP-A异常记录

 这种异常现象之前也有短暂出现,在10月5日开始出现频繁,几乎每几秒就会产生一条这种日志告警记录。故障对实际业务还没有出现影响,但由于A10 设备无法自行恢复同步,还需要对A10进行故障排查。

 两台设备分别对应LC01和LC02来进行心跳通信,正常情况下,LC01和LC02可以互相ping通对方的心跳IP,,二者也可以通过心跳IP进行配置同步。

开始以下故障排查:

a.在LC02设备上查看log日志,发现确实存在大量vrrp-a missing日志

b.分别在LC01和LC02上进行对端ping测试,发现无法ping通对端VRRP-A IP

c.检查了LC01和LC02的trunk 1状态,所有成员端口UP,也未发现异常

d.在LC01和LC02上使用show vrrp-a命令检查vrrp-a状态,LC01无法发现LC02 ,LC02却可以发现LC01:

e.检查物理线路状态灯,所有端口正常亮灯

f.进入调试模式对设备的线路流量进行测试

结果发现,LC01可以通过port5和port6发出包,但LC02只有port6收到了包,任何通过port5的包都被丢弃了。

所以我们分析可能是某台设备port5的链路或者端口出现了异常导致链路故障,因此决定先将port5关闭。

进行了测试操作:

1.先将备机锁定为强制备状态,检查当前链路连接,LC01和LC02均可以使用port6正常收包;查看vrrp-a信息,查看vrrp missed数据包,数据无异,可以正常ping通对端心跳。

2.要确认两台设备的port5之间存在异常,使用port4替代了port5加入心跳组;同样操作后的结果是Port4和port6也可以正常收包和正常ping通对端心跳IP。

得出结论

    A10的链路聚合静态模式不会检测对端端口状态,数据包仍会发送到故障端口。备机LC02的port 5存在收包故障,所有发向该口的数据包都会被丢弃;LC01(Active)从port5和port6发送流量,但是LC02(standby)没有接收到port5上过来的流量,导致A10的同步功能出现异常。

解决问题

   更换聚合组成员端口,将两台设备的port 5撤出聚合组,使用port 4取代port 5加入聚合

优化方案

 将A10的心跳链路聚合由静态模式更改为LACP动态模式,可以提升链路的故障检测能力。

两台A10按步骤分别执行以下操作:

1.先将所有聚合组成员撤出聚合组,否则无法修改聚合组模式

2.重新创建trunk 1,使用动态LACP模式,并设置超时检测时间为短

3.由于修改了trunk 1,所以以下vrrp配置需要重新指定

你会解决负载均衡-心跳missing了吗?如果有问题可以留言,带你看不一样的IT世界,我们下期再见!