文档首页/ AI开发平台ModelArts/ 故障排除/ 轻量算力节点/ RoCELinkStatusDown事件处理建议
更新时间:2026-02-06 GMT+08:00
分享

RoCELinkStatusDown事件处理建议

故障影响

可能造成客户业务中断,无法使用NPU卡。

告警解释

检测到当前机器上有NPU RoCE网口状态为down。

告警参数

参数名称

参数含义

名称

NPU:RoCE网卡down

类型

故障类告警

发生时间

告警触发时间

定位信息

局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息

可能原因

若对端交换机故障隔离功能参数配置过小,会使对端交换机对应端口触发故障隔离,导致NPU侧网口down。

处理步骤

  1. 登录机器,执行命令查询NPU网口状态。如下图所示,即2号和4号网口状态为down。
    for i in $(seq 07);do hccn_tool -i $i -link -g; done

  2. 如果确认是RoCE网卡down故障,可以通过命令设置网口状态为UP。
    hccn_tool [-i %d]-cfg recovery

告警清除

此告警恢复后,关闭工单时清除方式选择清除网管告警即可。

参考信息

相关文档