GpuRoceNicConfigIncorrect事件处理建议
故障影响
可能造成客户的业务中断,无法使用该GPU卡。
告警解释
有RoCE网卡存在多个不同的IP,或者有RoCE网卡没有配置IP。
告警参数
|
参数名称 |
参数含义 |
|---|---|
|
名称 |
GPU: RoCE网卡配置错误 |
|
类型 |
故障类型告警 |
|
发生时间 |
告警触发时间 |
|
定位信息 |
局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息 |
可能原因
- RoCE网卡配置错误。
- 服务器上有RoCE配置残留。
处理步骤
- 登录机器,执行命令查询RoCE网卡配置信息。如果查询到有RoCE网卡存在多个不同IP,或者有RoCE网卡没有IP,则表明存在RoCE网卡配置错误故障。
show_gids

- 如果确认是GPU RoCE网卡配置错误故障,则可以手动清理/etc/netplan/roce.yaml文件内容,注意文件不能删除。
- 重启机器,重启后检查RoCE网卡IP是否正常并进行业务验证。
告警清除
此告警恢复后,关闭工单时清除方式选择清除网管告警即可。
参考信息
无