ALM-142147599 BGP连接中断
告警解释
The BGP FSM moves from a higher numbered state to a lower numbered state. (BgpPeerRemoteAddr=[PeerIpv4Ipv6Addr], BgpPeerLastError=[PeerLastError], BgpPeerState=[PeerState], LocalIfName=[LocalIfName], Reason=[Reason], Description=[Description])
BGP状态机的状态值从高值状态变为低值状态并且前一个状态是Openconfirm状态或Established状态。
告警属性
告警ID |
OID |
告警级别 |
告警类型 |
---|---|---|---|
142147599 |
1.3.6.1.2.1.15.7.2 |
重要 |
通信告警 |
告警参数
参数名称 | 参数含义 |
---|---|
PeerIpv4Ipv6Addr |
对等体地址。该MIB节点只支持IPv4邻居场景,对于IPv6邻居场景上报IPv6的router-id,请在设备上查询对应告警。 |
PeerLastError |
对等体上次断开连接时错误码。 该参数显示格式是[ErrorCode][ErrorSubCode],其中[ErrorCode]是错误码,[ErrorSubCode]是错误子码。例如35,3代表错误码,5代表错误子码。该参数为0时,代表没有产生错误。错误码的含义及可能原因请参见《BGP原理描述—BGP报文格式》中的NOTIFICATION报文,该报文用于处理BGP进程中的各种错误。 |
PeerState |
BGP对等体的状态。
|
LocalIfName |
本地接口名。 |
Reason |
邻居断开连接原因。
|
Description |
邻居描述信息。 |
可能原因
- 原因1:BGP configuration lead peer down(BGP配置导致邻居断连接)
- 原因2:BGP receive notification(BGP收到notification报文)
- 原因3:BGP receive error packet(BGP收到错误包)
- 原因4:BGP hold timer expire(BGP hold timer 超时)
- 原因5:BGP remote peer not reachable(BGP远端不可达)
- 原因6:BGP direct connect-interface down(BGP直连接口断开连接)
- 原因7:BGP route exceed the maximum number allowed(BGP路由超限)
- 原因9:The system memory is overloaded(系统内存过载)
处理步骤
- 原因1:BGP configuration lead peer down
- 如果是,则请执行步骤2。
- 如果不是,则请执行步骤3。
2. 取消造成邻居断开的配置即可恢复。
3. 检查是否重置了BGP连接。
- 若未重置BGP连接,请执行步骤4。
- 若重置了BGP连接,短暂等待后查看是否恢复连接。如果未恢复连接请执行步骤4。
4. 请收集告警信息和配置信息,并联系技术支持工程师。
- 原因2:BGP receive notification
1. 使用display bgp peer <ip-address> log-info查看BGP断连时的Notification信息。
- 如果Notification的Error Code是4,表示BGP的Holdtimer超时也没有收到Keepalive报文,则请执行步骤3。
- 如果Notification的Error Code是5,表示BGP的有限状态机发生了错误,则请执行步骤17。
- 如果Notification的Error Code是6,表示BGP断连的原因是BGP主动关闭连接,则请执行步骤2。
2. 使用display bgp peer <ip-address> log-info查看Notification是否是由产生告警的设备所发。
- 如果是,则请执行步骤3。
- 如果不是,则请执行步骤4。
3. 使用ping命令查看BGP邻居的地址是否能通。
- 如果是,则请执行步骤4。
- 如果不是,则请执行步骤5。
4. 查看CPU的利用率是否过高,具体命令以设备实际为准。
- 如果是,则请执行步骤17。
- 如果不是,则请执行步骤6。
5. 使用命令display ip routing-table查看BGP peer地址路由表是否存在。
- 如果是,则请执行步骤7。
- 如果不是,则请执行步骤8。
6. 使用命令display acl命令可以查看设备是否配置了禁止TCP端口179的ACL。
- 如果是,删除禁止TCP端口179的ACL。
- 如果不是,则请执行步骤9。
7. 使用命令display interface查看路由的出接口是否是UP的。
- 如果是,则请执行步骤17。
- 如果不是,则请执行步骤10。
8. 查看配置信息,检查BGP Peer地址的路由的来源。
- 如果路由来源来自OSPF,则请执行步骤11。
- 如果路由来源来自ISIS,则请执行步骤12。
9. 查看BGP配置,BGP是否是用loopback接口建连。
- 如果是,则请执行步骤13。
- 如果不是,则请执行步骤14。
10. 查看接口上是否被执行shutdown命令。
- 如果是,在接口上执行undo shutdown命令。如果未能解除告警,则请执行步骤13。
- 如果不是,则请执行步骤17。
11. 使用命令display ospf peer查看ospf peer是否建立。
- 如果是,则请执行步骤17。
- 如果不是,请参考告警OSPF_1.3.6.1.2.1.14.16.2.2 ospfNbrStateChange的处理步骤。
12. 使用命令display isis peer查看isis peer是否建立。
- 如果是,则请执行步骤17。
- 如果不是,请参考告警ISIS_1.3.6.1.3.37.2.0.17 isisAdjacencyChange的处理步骤。
13. 检查是否指定发起BGP连接时使用的源地址。
- 如果是,则请执行步骤14。
- 如果不是,请配置peer connect-interface命令指定发起BGP连接时使用的源地址。
14. 如果BGP是EBGP邻居并且EBGP邻居间有多跳,检查是否配置peer ebgp-max-hop命令。
- 如果是,则请执行步骤15。
- 如果不是,请配置peer ebgp-max-hop命令。
15. 如果配置了peer valid-ttl-hops <hops>,检查从对端收到报文的TTL是否在[255-hops+1, 255]的范围内。
- 如果是,则请执行步骤16。
- 如果不是,请重新配置peer valid-ttl-hops <hops>命令,使到对端的报文的TTL满足在[255-hops+1, 255]的范围内的判断条件。
16. 联系对端设备的维护人员,检查对端设备是否有重置BGP,或者本端是否在其他地址族下使用peer enable命令使能Peer,或者配置BGP连接参数等操作。如果存在以上操作,请等待一段时间再查看告警是否解除。如果告警未解除请执行步骤17。
17. 请收集告警信息和配置信息,并联系技术支持工程师。
- 原因3:BGP receive error packet
1. 使用display bgp peer <ip-address> log-info查看BGP断连时的Notification信息。
- 如果Notification的Error Code是1,表示BGP收到了报文头错误的报文。请执行步骤2。
- 如果Notification的Error Code是2,表示BGP收到了错误的Open报文。请执行步骤2。
- 如果Notification的Error Code是3,表示BGP收到了错误的Update报文。请执行步骤2。
2. 请收集告警信息和配置信息,并联系技术支持工程师。
- 原因4:BGP hold timer expire
- 如果是,则请执行步骤2。
- 如果不是,则请执行步骤3。
2. 查看CPU的利用率是否过高,具体命令以设备实际为准。
- 如果是,则请执行步骤15。
- 如果不是,则请执行步骤4。
3. 使用命令display ip routing-table查看BGP peer地址路由表是否存在。
- 如果是,则请执行步骤5。
- 如果不是,则请执行步骤6。
4. 使用命令display acl命令可以查看设备是否配置了禁止TCP端口179的ACL。
- 如果是,删除禁止TCP端口179的ACL。
- 如果不是,则请执行步骤7。
5. 使用命令display interface查看路由的出接口是否是UP的。
- 如果是,则请执行步骤15。
- 如果不是,则请执行步骤8。
6. 查看配置信息,检查BGP Peer地址的路由的来源。
- 如果路由来源来自OSPF,则请执行步骤9。
- 如果路由来源来自ISIS,则请执行步骤10。
7. 查看BGP配置,BGP是否是用loopback接口建连。
- 如果是,则请执行步骤11。
- 如果不是,则请执行步骤12。
8. 查看接口上是否被执行shutdown命令。
- 在接口上执行undo shutdown命令。如果未能解除告警,则请执行步骤11。
- 如果不是,则请执行步骤15。
9. 使用命令display ospf peer查看ospf peer是否建立。
- 如果是,则请执行步骤15。
- 如果不是,则请参考告警OSPF_1.3.6.1.2.1.14.16.2.2 ospfNbrStateChange的处理步骤。
10. 使用命令display isis peer查看isis peer是否建立。
- 如果是,则请执行步骤15。
- 如果不是,则请参考告警ISIS_1.3.6.1.3.37.2.0.17 isisAdjacencyChange的处理步骤。
11. 检查是否指定发起BGP连接时使用的源地址。
- 如果是,则请执行步骤12。
- 如果不是,则请配置peer connect-interface命令指定发起BGP连接时使用的源地址。
12. 如果BGP是EBGP邻居并且EBGP邻居间有多跳,检查是否配置peer ebgp-max-hop命令。
- 如果是,则请执行步骤13。
- 如果不是,则请配置peer ebgp-max-hop命令。
13. 如果配置了peer valid-ttl-hops <hops>,检查从对端收到报文的TTL是否在[255-hops+1, 255]的范围内。
- 如果是,则请执行步骤14。
- 如果不是,则请重新配置peer valid-ttl-hops <hops>命令,使到对端的报文的TTL满足在[255-hops+1, 255]的范围内的判断条件。
14. 联系对端设备的维护人员,检查对端设备是否有重置BGP,或者本端是否在其他地址族下使用peer enable命令使能Peer,或者配置BGP连接参数等操作。如果存在以上操作,请等待一段时间再查看告警是否解除。如果告警未解除请执行步骤15。
15. 请收集告警信息和配置信息,并联系技术支持工程师。
- 原因5:BGP remote peer not reachable
- 如果是,则请执行步骤2。
- 如果不是,则请执行步骤3。
2. 查看CPU的利用率是否过高,具体命令以设备实际为准。
- 如果是,则请执行步骤15。
- 如果不是,则请执行步骤4。
3. 使用命令display ip routing-table查看BGP peer地址路由表是否存在。
- 如果是,则请执行步骤5。
- 如果不是,则请执行步骤6。
4. 使用命令display acl命令可以查看设备是否配置了禁止TCP端口179的ACL。
- 如果是,则删除禁止TCP端口179的ACL。
- 如果不是,则请执行步骤7。
5. 使用命令display interface查看路由的出接口是否是UP的。
- 如果是,则请执行步骤15。
- 如果不是,则请执行步骤8。
6. 查看配置信息,检查BGP Peer地址的路由的来源。
- 如果路由来源来自OSPF,则请执行步骤9。
- 如果路由来源来自ISIS,则请执行步骤10。
7. 查看BGP配置,BGP是否是用loopback接口建连。
- 如果是,则请执行步骤11。
- 如果不是,则请执行步骤12。
8. 查看接口上是否被执行shutdown命令。
- 在接口上执行undo shutdown命令。如果未能解除告警,则请执行步骤11。
- 如果不是,则请执行步骤15。
9. 使用命令display ospf peer查看ospf peer是否建立。
- 如果是,则请执行步骤15。
- 如果不是,则请参考告警OSPF_1.3.6.1.2.1.14.16.2.2 ospfNbrStateChange的处理步骤。
10. 使用命令display isis peer查看isis peer是否建立。
- 如果是,则请执行步骤15。
- 如果不是,则请参考告警ISIS_1.3.6.1.3.37.2.0.17 isisAdjacencyChange的处理步骤。
11. 检查是否指定发起BGP连接时使用的源地址。
- 如果是,则请执行步骤12。
- 如果不是,则请配置peer connect-interface命令指定发起BGP连接时使用的源地址。
12. 如果BGP是EBGP邻居并且EBGP邻居间有多跳,检查是否配置peer ebgp-max-hop命令。
- 如果是,则请执行步骤13。
- 如果不是,则请配置peer ebgp-max-hop命令。
13. 如果配置了peer valid-ttl-hops <hops>,检查从对端收到报文的TTL是否在[255-hops+1, 255]的范围内。
- 如果是,则请执行步骤14。
- 如果不是,则请重新配置peer valid-ttl-hops <hops>命令,使到对端的报文的TTL满足在[255-hops+1, 255]的范围内的判断条件。
14. 联系对端设备的维护人员,检查对端设备是否有重置BGP,或者本端是否在其他地址族下使用peer enable命令使能Peer,或者配置BGP连接参数等操作。如果存在以上操作,请等待一段时间再查看告警是否解除。如果告警未解除请执行步骤15。
15. 请收集告警信息和配置信息,并联系技术支持工程师。
- 原因6:BGP direct connect-interface down
2. 请收集告警信息和配置信息,并联系技术支持工程师。
- 原因7:BGP route exceed the maximum number allowed
1. 查看是否配置了peer route-limit命令,是否路由超上限。
- 如果是,则请执行步骤2。
- 如果不是,则请执行步骤3。
2. 请查看配置的peer route-limit是否必要,如果必要则通过减少路由使路由数量低于route-limit上限值。
3. 请收集告警信息和配置信息,并联系技术支持工程师。
- 原因9:The system memory is overloaded
1. 内存超限会逐步熔断所有BGP邻居,所有邻居断连后10分钟BGP进程会自动重启,重启之后查看该告警是否清除。
- 如果是,执行步骤3。
- 如果否,执行步骤2。
2. 请收集告警信息和配置信息,并联系技术支持工程师。
3. 结束。