文档首页/ AI开发平台ModelArts/ 故障排除/ Lite Cluster/ 如何定位和处理Cluster资源池节点故障
更新时间:2025-08-22 GMT+08:00
分享

如何定位和处理Cluster资源池节点故障

故障说明和处理建议

图1 Lite池故障处理流程

对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondition中。同时,节点故障指标默认会上报到AOM,您可在AOM配置告警通知。

当发生节点异常时,在故障初步分析阶段,您可先按表1识别是否为亚健康并自助进行处理,如果不是,则为故障,请联系客户经理发起维修流程(如果无客户经理可提交工单)。

表1 节点故障指标定义

NodeCondition Type

分类

子类

异常中文描述

检测方法

处理建议

NT_NPU_DEVICE

NPU

其他

npu dcmi device异常。

NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警。

可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。

NT_NPU_NET

NPU

链路

npu dcmi net异常。

NPU网络链接异常。

可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。

NT_NPU_CARD_LOSE

NPU

掉卡

NPU卡丢失。

节点规格的NPU卡数和k8sNode中可调度卡数不一致。

可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。

NT_NPU_OTHER

NPU

其他

NPU其他错误。

检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。

发起维修流程。

NT_NPU_ECC_COUNT

NPU

显存

NPU ECC次数达到维修阈值。

NPU的HBM总的多Bit Ecc隔离地址记录达到64个。

发起维修流程。

NT_NET_NTP_CHECK

Runtime

其他

ntp异常。

ntpd或者chronyd服务异常。

发起维修流程。

NT_KUBE_DISK_READONLY_CHECK

Runtime

其他

Kubelet硬盘只读

以下目录只读:

/mnt/paas/kubernetes/kubelet

发起维修流程。

NT_GPU_SMI_ECC_CHECK

GPU

显存

GPU ECC错误。

通过nvidia-smi -a查询到存在Pending Page Blacklist为Yes的记录,或多比特Register File大于0。对于Ampere架构的GPU,存在以下场景:

  • 存在不可纠正的SRAM错误。
  • 存在Remapping Failure记录。
  • dmsg中存在Xid 95事件。

(参考NVIDIA GPU Memory Error Management

Ampere架构GPU显存错误分级:

  • L1: 可纠正ECC错误(单比特ECC错误),不影响业务。观测方式:nvidia-smi -a中查询到Volatile Correctable记录。
  • L2: 不可纠正ECC错误(多比特ECC错误),当次业务受损,重启进程可恢复。观测方式:nvidia-smi -a中查询到Volatile Uncorrectable记录。
  • L3: 错误未被抑制,可能影响后续业务,需要重置卡或重启节点。观测方式:Xid事件中包含95事件。(Remapped的Pending记录只作为提示,当业务空闲时进行卡重置触发重映射即可)
  • L4: 需要换卡,SRAM Uncorrectable>4或者Remapped Failed。

可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。

NT_GPU_SMI_ERROR

GPU

其他

nvidia-smi返回信息中包含ERR。

通过nvidia-smi -a查询到ERR!,通常为硬件问题,如电源风扇等问题。

发起维修流程。

NT_GPU_SMI_RUNTIME

GPU

其他

nvidia-smi执行错误,超时或者不存在。

执行nvidia-smi退出码非0。

发起维修流程。

NT_GPU_SMI_ECC_COUNT

GPU

显存

ECC错误到达64次

通过nvidia-smi -a查询到Retired Pages中,Single Bit和Double Bit之和大于64。

发起维修流程。

NT_GPU_CARD_LOSE

GPU

掉卡

GPU卡丢失。

节点规格的GPU卡数和以下任意值不相等:

  1. lspci可见GPU卡数。
  2. nvidia-smi可见卡数。
  3. k8s可调度卡数不相等。

发起维修流程。

NT_GPU_SMI_INFOROM_ERROR

GPU

其他

infoROM告警。

执行nvidia-smi的返回信息中包含“infoROM is corrupted”告警。

发起维修流程。

NT_GPU_OTHER

GPU

其他

GPU其他错误。

检测到的其他GPU错误,通常为硬件问题,请联系技术人员支持。

发起维修流程。

NT_NET_IB_CHECK

IB

链路

IB网卡异常。

ibstat查看网卡非Active状态。

可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。

部分故障模式通过华为云运维平台硬件告警监控发现,相关的故障定义和处理建议如表2所示。同时,这类故障产生时默认会上报AOM事件,您可在AOM配置告警通知。

表2 节点故障事件定义

故障码

分类

子类

异常中文描述

检测方法

处理建议

A050804

硬件故障

硬件故障

通过硬件告警发现。

硬件告警监控发现。

请在事件中心授权修复,详细请参考事件中心授权运维

A050202

Runtime

其他

k8s节点notReady

登录CCE集群查看告警节点状态

确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点

配置节点指标类告警通知

节点故障指标(nt_npg)默认会上报到AOM,您可以在AOM配置短信、邮件等通知方式。

以下步骤基于AOM2.0配置。

nt_npg指标type=2是无效值,nt_npg{type="NT_NPU_CARD_LOSE"} !=2表示过滤掉无效值。

  1. 登录AOM控制台
  2. 在左侧导航栏选择“告警中心 > 告警规则”,单击“创建告警规则”。
  3. 设置告警规则(以NPU掉卡为例)。

    • 规则类型:选择指标告警规则。
    • 配置方式:选择PromQL。
    • 默认规则:选择自定义,命令行输入框:
      sum(nt_npg{type="NT_NPU_CARD_LOSE"} !=2) by (cluster_name, node_ip,type)
      图2 告警规则设置

    • 告警条件:选择触发条件为持续时间1分钟,产生重要告警。
    • 告警通知(可选):如果需要将告警通过邮件、手机方式通知您,可在告警通知处,为此告警规则配置行动规则。如果此处无行动规则,请新建告警行动规则。

配置节点事件类告警通知

节点故障事件会上报到AOM,您可以在AOM配置短信、邮件等通知方式。

以下步骤基于AOM2.0配置。

  1. 登录AOM控制台
  2. 在左侧导航栏选择“告警中心 > 告警规则”,在右上角单击“创建告警规则”。
  3. 设置告警规则(以故障码A050804为例)。

    • 规则类型:选择事件告警规则。
    • 事件类型:选择系统事件。
    • 事件来源:选择ModelArts。
    • 监控对象:监控对象通过自定义属性进行筛选,格式为code=${故障码}。

      本示例中选择“code=A050804”事件,触发方式选择“立即触发”。

      图3 告警规则设置
    • 告警方式:选择“直接告警”。
    • 告警通知(可选):如果需要将告警通过邮件、手机方式通知您,可在告警通知处,为此告警规则配置行动规则。如果此处无行动规则,请新建告警行动规则。

相关文档