文档首页/ AI开发平台ModelArts/ 故障排除/ 轻量算力节点/ GpuRoceNicConfigIncorrect事件处理建议
更新时间:2026-02-06 GMT+08:00
分享

GpuRoceNicConfigIncorrect事件处理建议

故障影响

可能造成客户的业务中断,无法使用该GPU卡。

告警解释

有RoCE网卡存在多个不同的IP,或者有RoCE网卡没有配置IP。

告警参数

参数名称

参数含义

名称

GPU: RoCE网卡配置错误

类型

故障类型告警

发生时间

告警触发时间

定位信息

局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息

可能原因

  • RoCE网卡配置错误。
  • 服务器上有RoCE配置残留。

处理步骤

  1. 登录机器,执行命令查询RoCE网卡配置信息。如果查询到有RoCE网卡存在多个不同IP,或者有RoCE网卡没有IP,则表明存在RoCE网卡配置错误故障。
    show_gids

  2. 如果确认是GPU RoCE网卡配置错误故障,则可以手动清理/etc/netplan/roce.yaml文件内容,注意文件不能删除
  3. 重启机器,重启后检查RoCE网卡IP是否正常并进行业务验证。

告警清除

此告警恢复后,关闭工单时清除方式选择清除网管告警即可。

参考信息

相关文档