RoCELinkStatusDown事件处理建议
故障影响
可能造成客户业务中断,无法使用NPU卡。
告警解释
检测到当前机器上有NPU RoCE网口状态为down。
告警参数
|
参数名称 |
参数含义 |
|---|---|
|
名称 |
NPU:RoCE网卡down |
|
类型 |
故障类告警 |
|
发生时间 |
告警触发时间 |
|
定位信息 |
局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息 |
可能原因
若对端交换机故障隔离功能参数配置过小,会使对端交换机对应端口触发故障隔离,导致NPU侧网口down。
处理步骤
- 登录机器,执行命令查询NPU网口状态。如下图所示,即2号和4号网口状态为down。
for i in $(seq 07);do hccn_tool -i $i -link -g; done

- 如果确认是RoCE网卡down故障,可以通过命令设置网口状态为UP。
hccn_tool [-i %d]-cfg recovery

告警清除
此告警恢复后,关闭工单时清除方式选择清除网管告警即可。
参考信息
无