文档首页/ AI开发平台ModelArts/ 故障排除/ 轻量算力节点/ HccnConfNotExisted事件处理建议
更新时间:2026-02-06 GMT+08:00
分享

HccnConfNotExisted事件处理建议

故障影响

可能会引起网络方面的异常,导致客户业务中断。

告警解释

RoCE网络配置文件/etc/hccn.conf丢失。

告警参数

参数名称

参数含义

名称

NPU:RoCE网卡配置文件/etc/hccn.conf不存在

类型

故障类告警

发生时间

告警触发时间

定位信息

局点、云服务、微服务、虚拟机ID、虚拟机名称、告警信息

可能原因

配置文件/etc/hccn.conf可能被删除。

处理步骤

  1. 登录机器,执行命令查看roce网卡配置文件是否存在。
    ls /etc/hccn.conf

  2. 如果确认是RoCE网卡配置文件/etc/hccn.conf不存在。收集上述排查信息,联系运维人员协助处理。

告警清除

此告警恢复后,关闭工单时清除方式选择清除网管告警即可。

参考信息

相关文档