文档首页/ AI开发平台ModelArts/ 故障排除/ 轻量算力节点/ RoCEUdpConfigError事件处理建议
更新时间:2026-02-06 GMT+08:00
分享

RoCEUdpConfigError事件处理建议

故障影响

可能导致多台机器间通信异常,导致客户业务中断。

告警解释

NPU RoCE哈希端口未散列配置。

告警参数

参数名称

参数含义

名称

NPU:Roce 端口未散列配置

类型

故障类告警

发生时间

告警触发时间

定位信息

局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息

可能原因

端口散列配置脚本未执行。

处理步骤

  1. 登录机器,通过命令查询RoCE端口情况。如果查询到端口数量为1,则存在RoCE UDP端口未散列配置故障。
    for i in $(seq 07);do echo "==============> $i"; hccn_tool -i $i -udp -g;done

  2. 如果确认是端口未进行散列配置。收集上述排查信息,提交工单联系运维人员协助处理。

告警清除

此告警恢复后,关闭工单时清除方式选择清除网管告警即可。

参考信息

相关文档