如何定位和处理Cluster资源池节点故障
故障说明和处理建议

对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondition中。同时,节点故障指标默认会上报到AOM,您可在AOM配置告警通知。
当发生节点异常时,在故障初步分析阶段,您可先按表1识别是否为亚健康并自助进行处理,如果不是,则为故障,请联系客户经理发起维修流程(如果无客户经理可提交工单)。
NodeCondition Type |
分类 |
子类 |
异常中文描述 |
检测方法 |
处理建议 |
---|---|---|---|---|---|
NT_NPU_DEVICE |
NPU |
其他 |
npu dcmi device异常。 |
NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警。 |
可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 |
NT_NPU_NET |
NPU |
链路 |
npu dcmi net异常。 |
NPU网络链接异常。 |
可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 |
NT_NPU_CARD_LOSE |
NPU |
掉卡 |
NPU卡丢失。 |
节点规格的NPU卡数和k8sNode中可调度卡数不一致。 |
可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 |
NT_NPU_OTHER |
NPU |
其他 |
NPU其他错误。 |
检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 |
发起维修流程。 |
NT_NPU_ECC_COUNT |
NPU |
显存 |
NPU ECC次数达到维修阈值。 |
NPU的HBM总的多Bit Ecc隔离地址记录达到64个。 |
发起维修流程。 |
NT_NET_NTP_CHECK |
Runtime |
其他 |
ntp异常。 |
ntpd或者chronyd服务异常。 |
发起维修流程。 |
NT_KUBE_DISK_READONLY_CHECK |
Runtime |
其他 |
Kubelet硬盘只读 |
以下目录只读: /mnt/paas/kubernetes/kubelet |
发起维修流程。 |
NT_GPU_SMI_ECC_CHECK |
GPU |
显存 |
GPU ECC错误。 |
通过nvidia-smi -a查询到存在Pending Page Blacklist为Yes的记录,或多比特Register File大于0。对于Ampere架构的GPU,存在以下场景:
(参考NVIDIA GPU Memory Error Management) Ampere架构GPU显存错误分级:
|
可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 |
NT_GPU_SMI_ERROR |
GPU |
其他 |
nvidia-smi返回信息中包含ERR。 |
通过nvidia-smi -a查询到ERR!,通常为硬件问题,如电源风扇等问题。 |
发起维修流程。 |
NT_GPU_SMI_RUNTIME |
GPU |
其他 |
nvidia-smi执行错误,超时或者不存在。 |
执行nvidia-smi退出码非0。 |
发起维修流程。 |
NT_GPU_SMI_ECC_COUNT |
GPU |
显存 |
ECC错误到达64次 |
通过nvidia-smi -a查询到Retired Pages中,Single Bit和Double Bit之和大于64。 |
发起维修流程。 |
NT_GPU_CARD_LOSE |
GPU |
掉卡 |
GPU卡丢失。 |
节点规格的GPU卡数和以下任意值不相等:
|
发起维修流程。 |
NT_GPU_SMI_INFOROM_ERROR |
GPU |
其他 |
infoROM告警。 |
执行nvidia-smi的返回信息中包含“infoROM is corrupted”告警。 |
发起维修流程。 |
NT_GPU_OTHER |
GPU |
其他 |
GPU其他错误。 |
检测到的其他GPU错误,通常为硬件问题,请联系技术人员支持。 |
发起维修流程。 |
NT_NET_IB_CHECK |
IB |
链路 |
IB网卡异常。 |
ibstat查看网卡非Active状态。 |
可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 |
部分故障模式通过华为云运维平台硬件告警监控发现,相关的故障定义和处理建议如表2所示。同时,这类故障产生时默认会上报AOM事件,您可在AOM配置告警通知。
故障码 |
分类 |
子类 |
异常中文描述 |
检测方法 |
处理建议 |
---|---|---|---|---|---|
A050804 |
硬件故障 |
硬件故障 |
通过硬件告警发现。 |
硬件告警监控发现。 |
请在事件中心授权修复,详细请参考事件中心授权运维。 |
A050202 |
Runtime |
其他 |
k8s节点notReady |
登录CCE集群查看告警节点状态 |
确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点 |
配置节点指标类告警通知
节点故障指标(nt_npg)默认会上报到AOM,您可以在AOM配置短信、邮件等通知方式。

以下步骤基于AOM2.0配置。
nt_npg指标type=2是无效值,nt_npg{type="NT_NPU_CARD_LOSE"} !=2表示过滤掉无效值。
- 登录AOM控制台
- 在左侧导航栏选择“告警中心 > 告警规则”,单击“创建告警规则”。
- 设置告警规则(以NPU掉卡为例)。
- 规则类型:选择指标告警规则。
- 配置方式:选择PromQL。
- 默认规则:选择自定义,命令行输入框:
sum(nt_npg{type="NT_NPU_CARD_LOSE"} !=2) by (cluster_name, node_ip,type)
图2 告警规则设置
- 告警条件:选择触发条件为持续时间1分钟,产生重要告警。
- 告警通知(可选):如果需要将告警通过邮件、手机方式通知您,可在告警通知处,为此告警规则配置行动规则。如果此处无行动规则,请新建告警行动规则。
配置节点事件类告警通知
节点故障事件会上报到AOM,您可以在AOM配置短信、邮件等通知方式。

以下步骤基于AOM2.0配置。