IRF（智能弹性架构）-526互联

IRF概述
IRF（智能弹性架构）,将多台设备通过IRF物理端口连接在一起，进行必要的配置后，虚拟化成一台“分布式设备”。使用这种虚拟化技术可以实现多台设备的协同工作、统一管理和不间断维护。

IRF的优点：
（1）简化管理：用户通过任意成员设备即可对IRF内所有成员设备进行统一管理。
（2）高可靠性：IRF的高可靠性体现在多个方面，主设备挂掉，备设备可接替工作，保证网络不受影响；同时设备上下链路支持聚合。
（3）强大的网络扩展能力：通过增加成员设备，端口数、带宽都得到扩展。因为各成员设备都有CPU，能够独立处理协议报文、进行报文转发。

IRF基本概念

1. 运行模式（设备支持两种运行模式）
（1）独立运行模式：处于该模式下的设备只能单机运行，不能与别的设备形成IRF。
（2）IRF模式：处于该模式下的设备可以与其它设备互连形成IRF。
2.角色：master和slave。
3.IRF端口：专用于IRF的逻辑接口，分为IRF-Port1和IRF-Port2。它需要和物理端口绑定之后才能生效。在独立运行模式下，IRF端口分为IRF-Port1和IRF-Port2；在IRF模式下，IRF端口分为IRF-Portn/1和IRF-Portn/2，其中n为设备的成员编号。
4. IRF合并：两个IRF各自已经稳定运行，通过物理连接和必要的配置，形成一个IRF。
5. IRF分裂：一个IRF形成后，由于IRF链路故障，导致IRF中两相邻成员设备物理上不连通，一个IRF变成两个IRF。

IRF工作原理
IRF的生命周期分为：物理连接、拓扑收集、角色选举、IRF的管理与维护四个阶段。
1.物理连接：略。
2.拓扑收集：
(1) 初始时刻，成员设备只记录了自身的拓扑信息；
(2) 当IRF端口状态变为up后，成员设备会将已知的拓扑信息周期性的发送出去；
(3) 成员设备收到邻居的拓扑信息后，会更新本地记录的拓扑信息。经过一段时间的收集，所有设备上都会收集到完整的拓扑信息（称为拓扑收敛）。此时会进入角色选举阶段。
3.角色选举：
(1) 成员优先级大的优先
(2) 系统运行时间长的优先（各设备的系统运行时间信息也是通过IRF Hello报文来传递的）
(3) 桥MAC地址小的优先
4.IRF拓扑维护：如果某成员设备A down或者IRF链路down，其邻居设备会立即将“成员设备A离开”的信息广播通知给IRF中的其它设备。获取到离开消息的成员设备会根据本地维护的IRF拓扑信息表来判断离开的是Master还是Slave，若离开的是Master，则触发新的角色选举，再更新本地的IRF拓扑；若是Slave，则直接更新本地的IRF拓扑，以保证IRF拓扑能迅速收敛。

5.多IRF冲突检测（MAD功能）（随笔中有一篇专门讲述MAD的。）
IRF链路故障会导致一个IRF变成两个新的IRF。这两个IRF拥有相同的IP地址等三层配置，会引起地址冲突，导致故障在网络中扩大。为了提高系统的可用性，当IRF分裂时我们就需要一种机制，能够检测出网络中同时存在多个IRF，并进行相应的处理尽量降低IRF分裂对业务的影响。MAD（Multi-Active Detection，多Active检测）就是这样一种检测和处理机制。它主要提供以下功能：
分裂检测：通过LACP（Link Aggregation Control Protocol，链路聚合控制协议）、BFD（Bidirectional Forwarding Detection，双向转发检测）或者免费ARP（Gratuitous Address Resolution Protocol）来检测网络中是否存在多个IRF。
冲突处理：当检测到网络中存在多个IRF时，让Master成员编号最小的IRF继续正常工作（维持Active状态），其它IRF会迁移到Recovery状态（表示IRF处于禁用状态），并关闭Recovery状态IRF中所有成员设备上除保留端口以外的其它所有物理端口（通常为业务接口），以保证该IRF不能再转发业务报文。
MAD故障恢复：IRF通过日志提示用户多Active冲突。此时设备会尝试自动修复IRF链路，如果修复失败的话，需要用户手工修复。IRF链路修复后，分裂的IRF会重新合并，Recovery状态IRF会自动恢复到Active状态，被关闭的物理端口将自动恢复转发能力。异常情况下（比如Active状态的IRF断电或者故障等），可以通过命令行启用Recovery状态的IRF，Recovery状态的IRF会恢复到Active状态，被关闭的物理端口也会恢复转发能力。