更新时间:2024-10-09 GMT+08:00
分享

ALM-142147599 BGP连接中断

告警解释

The BGP FSM moves from a higher numbered state to a lower numbered state. (BgpPeerRemoteAddr=[PeerIpv4Ipv6Addr], BgpPeerLastError=[PeerLastError], BgpPeerState=[PeerState], LocalIfName=[LocalIfName], Reason=[Reason], Description=[Description])

BGP状态机的状态值从高值状态变为低值状态并且前一个状态是Openconfirm状态或Established状态。

告警属性

告警ID

OID

告警级别

告警类型

142147599

1.3.6.1.2.1.15.7.2

重要

通信告警

告警参数

参数名称 参数含义

PeerIpv4Ipv6Addr

对等体地址。该MIB节点只支持IPv4邻居场景,对于IPv6邻居场景上报IPv6的router-id,请在设备上查询对应告警。

PeerLastError

对等体上次断开连接时错误码。

该参数显示格式是[ErrorCode][ErrorSubCode],其中[ErrorCode]是错误码,[ErrorSubCode]是错误子码。例如35,3代表错误码,5代表错误子码。该参数为0时,代表没有产生错误。错误码的含义及可能原因请参见《BGP原理描述—BGP报文格式》中的NOTIFICATION报文,该报文用于处理BGP进程中的各种错误。

PeerState

BGP对等体的状态。

  • 1表示状态Down。
  • 6表示状态Up。

LocalIfName

本地接口名。

Reason

邻居断开连接原因。

  • Configuration lead peer down:配置导致对等体断连。
  • Receive notification:收到Notification报文。
  • Receive error packet:收到错误报文内容。
  • Hold timer expire:Hold定时器到时。
  • Remote peer not reachable:远端对等体不可达。
  • Direct connect-interface down:直连接口状态为Down。
  • Route limit:路由数达到上限。
  • System memory overloaded:系统内存过载。

Description

邻居描述信息。

对系统的影响

BGP邻居中断连接,路由不可达,BGP转发业务中断。

可能原因

  • 原因1:BGP configuration lead peer down(BGP配置导致邻居断连接)
  • 原因2:BGP receive notification(BGP收到notification报文)
  • 原因3:BGP receive error packet(BGP收到错误包)
  • 原因4:BGP hold timer expire(BGP hold timer 超时)
  • 原因5:BGP remote peer not reachable(BGP远端不可达)
  • 原因6:BGP direct connect-interface down(BGP直连接口断开连接)
  • 原因7:BGP route exceed the maximum number allowed(BGP路由超限)
  • 原因9:The system memory is overloaded(系统内存过载)

处理步骤

  • 原因1:BGP configuration lead peer down

    1. 请查看是否是由于自身配置造成邻居断开。

    • 如果是,则请执行步骤2。
    • 如果不是,则请执行步骤3。

    2. 取消造成邻居断开的配置即可恢复。

    3. 检查是否重置了BGP连接。

    • 若未重置BGP连接,请执行步骤4。
    • 若重置了BGP连接,短暂等待后查看是否恢复连接。如果未恢复连接请执行步骤4。

    4. 请收集告警信息和配置信息,并联系技术支持工程师。

  • 原因2:BGP receive notification

    1. 使用display bgp peer <ip-address> log-info查看BGP断连时的Notification信息。

    • 如果Notification的Error Code是4,表示BGP的Holdtimer超时也没有收到Keepalive报文,则请执行步骤3。
    • 如果Notification的Error Code是5,表示BGP的有限状态机发生了错误,则请执行步骤17。
    • 如果Notification的Error Code是6,表示BGP断连的原因是BGP主动关闭连接,则请执行步骤2。

    2. 使用display bgp peer <ip-address> log-info查看Notification是否是由产生告警的设备所发。

    • 如果是,则请执行步骤3。
    • 如果不是,则请执行步骤4。

    3. 使用ping命令查看BGP邻居的地址是否能通。

    • 如果是,则请执行步骤4。
    • 如果不是,则请执行步骤5。

    4. 查看CPU的利用率是否过高,具体命令以设备实际为准。

    • 如果是,则请执行步骤17。
    • 如果不是,则请执行步骤6。

    5. 使用命令display ip routing-table查看BGP peer地址路由表是否存在。

    • 如果是,则请执行步骤7。
    • 如果不是,则请执行步骤8。

    6. 使用命令display acl命令可以查看设备是否配置了禁止TCP端口179的ACL。

    • 如果是,删除禁止TCP端口179的ACL。
    • 如果不是,则请执行步骤9。

    7. 使用命令display interface查看路由的出接口是否是UP的。

    • 如果是,则请执行步骤17。
    • 如果不是,则请执行步骤10。

    8. 查看配置信息,检查BGP Peer地址的路由的来源。

    • 如果路由来源来自OSPF,则请执行步骤11。
    • 如果路由来源来自ISIS,则请执行步骤12。

    9. 查看BGP配置,BGP是否是用loopback接口建连。

    • 如果是,则请执行步骤13。
    • 如果不是,则请执行步骤14。

    10. 查看接口上是否被执行shutdown命令。

    • 如果是,在接口上执行undo shutdown命令。如果未能解除告警,则请执行步骤13。
    • 如果不是,则请执行步骤17。

    11. 使用命令display ospf peer查看ospf peer是否建立。

    • 如果是,则请执行步骤17。
    • 如果不是,请参考告警OSPF_1.3.6.1.2.1.14.16.2.2 ospfNbrStateChange的处理步骤。

    12. 使用命令display isis peer查看isis peer是否建立。

    • 如果是,则请执行步骤17。
    • 如果不是,请参考告警ISIS_1.3.6.1.3.37.2.0.17 isisAdjacencyChange的处理步骤。

    13. 检查是否指定发起BGP连接时使用的源地址。

    • 如果是,则请执行步骤14。
    • 如果不是,请配置peer connect-interface命令指定发起BGP连接时使用的源地址。

    14. 如果BGP是EBGP邻居并且EBGP邻居间有多跳,检查是否配置peer ebgp-max-hop命令。

    • 如果是,则请执行步骤15。
    • 如果不是,请配置peer ebgp-max-hop命令。

    15. 如果配置了peer valid-ttl-hops <hops>,检查从对端收到报文的TTL是否在[255-hops+1, 255]的范围内。

    • 如果是,则请执行步骤16。
    • 如果不是,请重新配置peer valid-ttl-hops <hops>命令,使到对端的报文的TTL满足在[255-hops+1, 255]的范围内的判断条件。

    16. 联系对端设备的维护人员,检查对端设备是否有重置BGP,或者本端是否在其他地址族下使用peer enable命令使能Peer,或者配置BGP连接参数等操作。如果存在以上操作,请等待一段时间再查看告警是否解除。如果告警未解除请执行步骤17。

    17. 请收集告警信息和配置信息,并联系技术支持工程师。

  • 原因3:BGP receive error packet

    1. 使用display bgp peer <ip-address> log-info查看BGP断连时的Notification信息。

    • 如果Notification的Error Code是1,表示BGP收到了报文头错误的报文。请执行步骤2。
    • 如果Notification的Error Code是2,表示BGP收到了错误的Open报文。请执行步骤2。
    • 如果Notification的Error Code是3,表示BGP收到了错误的Update报文。请执行步骤2。

    2. 请收集告警信息和配置信息,并联系技术支持工程师。

  • 原因4:BGP hold timer expire

    1. 使用ping命令查看BGP邻居的地址是否能通。

    • 如果是,则请执行步骤2。
    • 如果不是,则请执行步骤3。

    2. 查看CPU的利用率是否过高,具体命令以设备实际为准。

    • 如果是,则请执行步骤15。
    • 如果不是,则请执行步骤4。

    3. 使用命令display ip routing-table查看BGP peer地址路由表是否存在。

    • 如果是,则请执行步骤5。
    • 如果不是,则请执行步骤6。

    4. 使用命令display acl命令可以查看设备是否配置了禁止TCP端口179的ACL。

    • 如果是,删除禁止TCP端口179的ACL。
    • 如果不是,则请执行步骤7。

    5. 使用命令display interface查看路由的出接口是否是UP的。

    • 如果是,则请执行步骤15。
    • 如果不是,则请执行步骤8。

    6. 查看配置信息,检查BGP Peer地址的路由的来源。

    • 如果路由来源来自OSPF,则请执行步骤9。
    • 如果路由来源来自ISIS,则请执行步骤10。

    7. 查看BGP配置,BGP是否是用loopback接口建连。

    • 如果是,则请执行步骤11。
    • 如果不是,则请执行步骤12。

    8. 查看接口上是否被执行shutdown命令。

    • 在接口上执行undo shutdown命令。如果未能解除告警,则请执行步骤11。
    • 如果不是,则请执行步骤15。

    9. 使用命令display ospf peer查看ospf peer是否建立。

    • 如果是,则请执行步骤15。
    • 如果不是,则请参考告警OSPF_1.3.6.1.2.1.14.16.2.2 ospfNbrStateChange的处理步骤。

    10. 使用命令display isis peer查看isis peer是否建立。

    • 如果是,则请执行步骤15。
    • 如果不是,则请参考告警ISIS_1.3.6.1.3.37.2.0.17 isisAdjacencyChange的处理步骤。

    11. 检查是否指定发起BGP连接时使用的源地址。

    • 如果是,则请执行步骤12。
    • 如果不是,则请配置peer connect-interface命令指定发起BGP连接时使用的源地址。

    12. 如果BGP是EBGP邻居并且EBGP邻居间有多跳,检查是否配置peer ebgp-max-hop命令。

    • 如果是,则请执行步骤13。
    • 如果不是,则请配置peer ebgp-max-hop命令。

    13. 如果配置了peer valid-ttl-hops <hops>,检查从对端收到报文的TTL是否在[255-hops+1, 255]的范围内。

    • 如果是,则请执行步骤14。
    • 如果不是,则请重新配置peer valid-ttl-hops <hops>命令,使到对端的报文的TTL满足在[255-hops+1, 255]的范围内的判断条件。

    14. 联系对端设备的维护人员,检查对端设备是否有重置BGP,或者本端是否在其他地址族下使用peer enable命令使能Peer,或者配置BGP连接参数等操作。如果存在以上操作,请等待一段时间再查看告警是否解除。如果告警未解除请执行步骤15。

    15. 请收集告警信息和配置信息,并联系技术支持工程师。

  • 原因5:BGP remote peer not reachable

    1. 使用ping命令查看BGP邻居的地址是否能通。

    • 如果是,则请执行步骤2。
    • 如果不是,则请执行步骤3。

    2. 查看CPU的利用率是否过高,具体命令以设备实际为准。

    • 如果是,则请执行步骤15。
    • 如果不是,则请执行步骤4。

    3. 使用命令display ip routing-table查看BGP peer地址路由表是否存在。

    • 如果是,则请执行步骤5。
    • 如果不是,则请执行步骤6。

    4. 使用命令display acl命令可以查看设备是否配置了禁止TCP端口179的ACL。

    • 如果是,则删除禁止TCP端口179的ACL。
    • 如果不是,则请执行步骤7。

    5. 使用命令display interface查看路由的出接口是否是UP的。

    • 如果是,则请执行步骤15。
    • 如果不是,则请执行步骤8。

    6. 查看配置信息,检查BGP Peer地址的路由的来源。

    • 如果路由来源来自OSPF,则请执行步骤9。
    • 如果路由来源来自ISIS,则请执行步骤10。

    7. 查看BGP配置,BGP是否是用loopback接口建连。

    • 如果是,则请执行步骤11。
    • 如果不是,则请执行步骤12。

    8. 查看接口上是否被执行shutdown命令。

    • 在接口上执行undo shutdown命令。如果未能解除告警,则请执行步骤11。
    • 如果不是,则请执行步骤15。

    9. 使用命令display ospf peer查看ospf peer是否建立。

    • 如果是,则请执行步骤15。
    • 如果不是,则请参考告警OSPF_1.3.6.1.2.1.14.16.2.2 ospfNbrStateChange的处理步骤。

    10. 使用命令display isis peer查看isis peer是否建立。

    • 如果是,则请执行步骤15。
    • 如果不是,则请参考告警ISIS_1.3.6.1.3.37.2.0.17 isisAdjacencyChange的处理步骤。

    11. 检查是否指定发起BGP连接时使用的源地址。

    • 如果是,则请执行步骤12。
    • 如果不是,则请配置peer connect-interface命令指定发起BGP连接时使用的源地址。

    12. 如果BGP是EBGP邻居并且EBGP邻居间有多跳,检查是否配置peer ebgp-max-hop命令。

    • 如果是,则请执行步骤13。
    • 如果不是,则请配置peer ebgp-max-hop命令。

    13. 如果配置了peer valid-ttl-hops <hops>,检查从对端收到报文的TTL是否在[255-hops+1, 255]的范围内。

    • 如果是,则请执行步骤14。
    • 如果不是,则请重新配置peer valid-ttl-hops <hops>命令,使到对端的报文的TTL满足在[255-hops+1, 255]的范围内的判断条件。

    14. 联系对端设备的维护人员,检查对端设备是否有重置BGP,或者本端是否在其他地址族下使用peer enable命令使能Peer,或者配置BGP连接参数等操作。如果存在以上操作,请等待一段时间再查看告警是否解除。如果告警未解除请执行步骤15。

    15. 请收集告警信息和配置信息,并联系技术支持工程师。

  • 原因6:BGP direct connect-interface down

    1. 检查接口是否被执行shutdown命令。

    2. 请收集告警信息和配置信息,并联系技术支持工程师。

  • 原因7:BGP route exceed the maximum number allowed

    1. 查看是否配置了peer route-limit命令,是否路由超上限。

    • 如果是,则请执行步骤2。
    • 如果不是,则请执行步骤3。

    2. 请查看配置的peer route-limit是否必要,如果必要则通过减少路由使路由数量低于route-limit上限值。

    3. 请收集告警信息和配置信息,并联系技术支持工程师。

  • 原因9:The system memory is overloaded

    1. 内存超限会逐步熔断所有BGP邻居,所有邻居断连后10分钟BGP进程会自动重启,重启之后查看该告警是否清除。

    • 如果是,执行步骤3。
    • 如果否,执行步骤2。

    2. 请收集告警信息和配置信息,并联系技术支持工程师。

    3. 结束。

告警清除

此告警修复后,系统会自动清除此告警,当前告警页面将不再显示该告警,无需手工清除。

相关文档