ALM-12045 网络读包丢包率超过阈值(2.x及以前版本)
告警解释
系统每30秒周期性检测网络读包丢包率,并把实际丢包率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包丢包率连续多次(默认值为5)超过阈值时产生该告警。
用户可通过“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”修改阈值。
平滑次数为1,网络读包丢包率小于或等于阈值时,告警恢复;平滑次数大于1,网络读包丢包率小于或等于阈值的90%时,告警恢复。
该告警检测默认关闭。若需要开启,请根据“检查系统环境”步骤,确认该系统是否可以开启该告警发送。
告警属性
告警ID |
告警级别 |
可自动清除 |
---|---|---|
12045 |
严重 |
是 |
告警参数
参数名称 |
参数含义 |
---|---|
ServiceName |
产生告警的服务名称。 |
RoleName |
产生告警的角色名称。 |
HostName |
产生告警的主机名。 |
NetworkCardName |
产生告警的网口名。 |
Trigger Condition |
系统当前指标取值满足自定义的告警设置条件。 |
对系统的影响
业务性能下降或者个别业务出现超时问题。
风险提示:在SuSE内核版本3.0以上或Red Hat 7.2版本,由于系统内核修改了网络读包丢包数的计数机制,在该系统下,即使网络正常运行,也可能会导致该告警出现,对业务无影响,建议优先按照“检查系统环境”进行排查。
可能原因
- 操作系统问题。
- 网卡配置了主备bond模式。
- 告警阈值配置不合理。
- 网络环境异常。
处理步骤
查看网络丢包率
- 使用PuTTY工具,以omm用户登录集群中任意非告警节点,执行ping 告警节点IP地址 -c 100命令检查网络中是否存在丢包。
# ping 10.10.10.12 -c 5 PING 10.10.10.12 (10.10.10.12) 56(84) bytes of data. 64 bytes from 10.10.10.11: icmp_seq=1 ttl=64 time=0.033 ms 64 bytes from 10.10.10.11: icmp_seq=2 ttl=64 time=0.034 ms 64 bytes from 10.10.10.11: icmp_seq=3 ttl=64 time=0.021 ms 64 bytes from 10.10.10.11: icmp_seq=4 ttl=64 time=0.033 ms 64 bytes from 10.10.10.11: icmp_seq=5 ttl=64 time=0.030 ms --- 10.10.10.12 ping statistics --- 5 packets transmitted, 5 received, 0% packet loss, time 4001ms rtt min/avg/max/mdev = 0.021/0.030/0.034/0.006 ms
- 告警节点IP地址:根据告警定位信息中的HostName字段值,在MRS集群详情页的“节点管理”界面查询对应的IP地址,管理平面和业务平面IP都需要检查。
- -c参数:检查次数,默认100次。
检查系统环境
- 使用PuTTY工具,以omm用户登录主OMS节点或者告警所在节点。
- 执行cat /etc/*-release命令,确认操作系统的类型。
- 执行cat /etc/euleros-release命令,查询操作系统版本是否为EulerOS 2.2。
# cat/etc/euleros-release EulerOS release 2.0 (SP2)
- 执行cat /proc/version命令,查询SuSE内核版本是否为3.0及以上。
# cat /proc/version Linux version 3.0.101-63-default (geeko@buildhost) (gcc version 4.3.4 [gcc-4_3-branch revision 152973] (SUSE Linux) ) #1 SMP Tue Jun 23 16:02:31 UTC 2015 (4b89d0c)
- 登录MRS Manager,进入“系统设置 > 配置 > 阈值配置”页面。
- 在“阈值配置”页面左侧树形结构中选择“网络读信息 > 网络读包率信息 > 读包丢包率”,在弹出的右侧信息中,查看“发送告警”是否已经勾选。
- 在弹出的右侧信息中,去勾选“发送告警”,屏蔽对“网络读包丢包率超过阈值”的检测。
- 登录MRS集群详情页面,选择“告警管理”。
- 搜索“12045”告警,将未自动清除的该告警全部手动清除,处理完毕。
图1 告警管理
“网络读包丢包率超过阈值”的告警ID是12045。
检查网卡是否配置了主备bond模式。
- 使用PuTTY工具,以omm用户登录告警所在节点,执行ls -l /proc/net/bonding命令,查看该节点是否存在“/proc/net/bonding”目录。
- 执行cat /proc/net/bonding/bond0命令,查看配置文件中Bonding Mode参数的值是否为fault-tolerance。
bond0为bond配置文件名称,请以11查询出的文件名称为准。
# cat /proc/net/bonding/bond0 Ethernet Channel Bonding Driver: v3.7.1 (April 27, 2011) Bonding Mode: fault-tolerance (active-backup) Primary Slave: eth1 (primary_reselect always) Currently Active Slave: eth1 MII Status: up MII Polling Interval (ms): 100 Up Delay (ms): 0 Down Delay (ms): 0 Slave Interface: eth0 MII Status: up Speed: 1000 Mbps Duplex: full Link Failure Count: 1 Slave queue ID: 0 Slave Interface: eth1 MII Status: up Speed: 1000 Mbps Duplex: full Link Failure Count: 1 Slave queue ID: 0
- 检查该告警详情中NetworkCardName参数对应的网卡是否为备网卡。
- 是,备网卡的告警无法自动恢复,请在告警管理页面手动清除该告警,处理完毕。
- 否,执行14。
备网卡判断方式:查看配置文件/proc/net/bonding/bond0,NetworkCardName参数对应的网卡名称等于其中一个Slave Interface,但是不等于Currently Active Slave(当前主网卡),则该网卡为备网卡。
检查阈值设置是否合理。
- 根据实际服务的使用情况在“系统设置 > 阈值配置 > 设备 > 主机 > 网络读信息 > 网络读包率信息 > 读包丢包率”中更改告警阈值。
- 等待5分钟,检查该告警是否恢复。
- 是,处理完毕。
- 否,执行17。
检查网络是否异常。
参考信息
无。