文档首页/ AI开发平台ModelArts/ 故障排除/ 轻量算力节点/ RoCEHealthStatusError事件处理建议
更新时间:2026-02-06 GMT+08:00
分享

RoCEHealthStatusError事件处理建议

故障影响

可能造成客户业务中断,客户无法使用该NPU卡。

告警解释

当前服务器中NPU芯片存在异常。

告警参数

参数名称

参数含义

名称

NPU:RoCE网卡健康状态异常

类型

故障类告警

发生时间

告警触发时间

定位信息

局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息

可能原因

NPU卡存在异常。

处理步骤

  1. 登录机器,执行命令查询NPU卡回显信息。
    npu-smi info

  2. 执行命令查询NPU网卡健康状态。如果查询到有NPU卡状态为非Success,则表明其健康状态异常。
    for i in $(seq 07);do hccn_tool -i $i -net_health -g; done

  3. 如果确认为NPU RoCE网卡健康状态异常。收集上述排查信息,提工单联系运维人员协助处理。

告警清除

此告警恢复后,关闭工单时清除方式选择清除网管告警即可。

参考信息

相关文档