如何定位和处理Cluster资源池节点故障

故障说明和处理建议

图1 轻量算力集群故障处理流程
点击放大

对于ModelArts 轻量算力集群，每个节点会以DaemonSet方式部署node-agent组件，该组件会检测节点状态，并将检测结果写到K8S NodeCondition中。同时，节点故障指标默认会上报到AOM，您可在AOM配置告警通知。

当发生节点异常时，在故障初步分析阶段，您可先按表1识别是否为亚健康并自助进行处理，如果不是，则为故障，请联系客户经理发起维修流程（如果无客户经理可提交工单）。

表1 节点故障指标定义
NodeCondition Type	分类	子类	异常中文描述	检测方法	处理建议
NT_NPU_DEVICE	NPU	其他	npu dcmi device异常。	NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警。	可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。
NT_NPU_NET	NPU	链路	npu dcmi net异常。	NPU网络连接异常。	可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。
NT_NPU_CARD_LOSE	NPU	掉卡	NPU卡丢失。	节点规格的NPU卡数和k8sNode中可调度的卡数不一致。	可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。
NT_NPU_OTHER	NPU	其他	NPU其他错误。	检测到的其他NPU错误，通常为不可自纠正的异常，请联系技术人员支持。	发起维修流程。
NT_NPU_ECC_COUNT	NPU	显存	NPU ECC次数达到维修阈值。	NPU的HBM总的多Bit Ecc隔离地址记录达到64个。	发起维修流程。
NT_NET_NTP_CHECK	Runtime	其他	ntp异常。	ntpd或者chronyd服务异常。	发起维修流程。
NT_KUBE_DISK_READONLY_CHECK	Runtime	其他	Kubelet硬盘只读	以下目录只读： /mnt/paas/kubernetes/kubelet	发起维修流程。
NT_GPU_SMI_ECC_CHECK	GPU	显存	GPU ECC错误。	通过nvidia-smi -a查询到存在Pending Page Blacklist为Yes的记录，或多比特Register File大于0。对于Ampere架构的GPU，存在以下场景：存在不可纠正的SRAM错误。存在Remapping Failure记录。 dmsg中存在Xid 95事件。（参考NVIDIA GPU Memory Error Management） Ampere架构GPU显存错误分级： L1: 可纠正ECC错误（单比特ECC错误），不影响业务。观测方式：nvidia-smi -a中查询到Volatile Correctable记录。 L2: 不可纠正ECC错误（多比特ECC错误），当次业务受损，重启进程可恢复。观测方式：nvidia-smi -a中查询到Volatile Uncorrectable记录。 L3: 错误未被抑制，可能影响后续业务，需要重置卡或重启节点。观测方式：Xid事件中包含95事件。(Remapped的Pending记录只作为提示，当业务空闲时进行卡重置触发重映射即可) L4: 需要换卡，SRAM Uncorrectable>4或者Remapped Failed。	可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。
NT_GPU_SMI_ERROR	GPU	其他	nvidia-smi返回信息中包含ERR。	通过nvidia-smi -a查询到ERR!，通常为硬件问题，如电源风扇等问题。	发起维修流程。
NT_GPU_SMI_RUNTIME	GPU	其他	nvidia-smi执行错误，超时或者不存在。	执行nvidia-smi退出码非0。	发起维修流程。
NT_GPU_SMI_ECC_COUNT	GPU	显存	ECC错误到达64次	通过nvidia-smi -a查询到Retired Pages中，Single Bit和Double Bit之和大于64。	发起维修流程。
NT_GPU_CARD_LOSE	GPU	掉卡	GPU卡丢失。	节点规格的GPU卡数和以下任意值不相等： lspci可见GPU卡数。 nvidia-smi可见卡数。 k8s可调度卡数不相等。	发起维修流程。
NT_GPU_SMI_INFOROM_ERROR	GPU	其他	infoROM告警。	执行nvidia-smi的返回信息中包含“infoROM is corrupted”告警。	发起维修流程。
NT_GPU_OTHER	GPU	其他	GPU其他错误。	检测到的其他GPU错误，通常为硬件问题，请联系技术人员支持。	发起维修流程。
NT_NET_IB_CHECK	IB	链路	IB网卡异常。	ibstat查看网卡非Active状态。	可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。

部分故障模式通过华为云运维平台硬件告警监控发现，相关的故障定义和处理建议如表2所示。同时，这类故障产生时默认会上报AOM事件，您可在AOM配置告警通知。

表2 节点故障事件定义
故障码	分类	子类	异常中文描述	检测方法	处理建议
A050804	硬件故障	硬件故障	通过硬件告警发现。	硬件告警监控发现。	请在事件中心授权修复。
A050202	Runtime	其他	k8s节点notReady	登录CCE集群查看告警节点状态	确认异常后，优先将此节点设置为不可调度，并将业务pod调度到其他节点

配置节点指标类告警通知

节点故障指标(nt_npg)默认会上报到AOM，您可以在AOM配置短信、邮件等通知方式。

以下步骤基于AOM2.0配置。

nt_npg指标type=2是无效值，nt_npg{type="NT_NPU_CARD_LOSE"} !=2表示过滤掉无效值。

登录AOM控制台
在左侧导航栏选择“告警中心 > 告警规则”，单击“创建告警规则”。
设置告警规则（以NPU掉卡为例）。
- 规则类型：选择指标告警规则。
- 配置方式：选择PromQL。
- 默认规则：选择自定义，命令行输入框：
```
sum(nt_npg{type="NT_NPU_CARD_LOSE"} !=2) by (cluster_name, node_ip,type) > 0 
```
  图2 告警规则设置
- 告警条件：选择触发条件为持续时间1分钟，产生重要告警。
- 告警通知（可选）：如果需要将告警通过邮件、手机方式通知您，可在告警通知处，为此告警规则配置行动规则。如果此处无行动规则，请新建告警行动规则。

配置节点事件类告警通知

节点故障事件会上报到AOM，您可以在AOM配置短信、邮件等通知方式。

以下步骤基于AOM2.0配置。

登录AOM控制台
在左侧导航栏选择“告警中心 > 告警规则”，在右上角单击“创建告警规则”。
设置告警规则（以故障码A050804为例）。
- 规则类型：选择事件告警规则。
- 事件类型：选择系统事件。
- 事件来源：选择ModelArts。
- 监控对象：监控对象通过自定义属性进行筛选，格式为code=${故障码}。
  本示例中选择“code=A050804”事件，触发方式选择“立即触发”。
  
  图3 告警规则设置
- 告警方式：选择“直接告警”。
- 告警通知（可选）：如果需要将告警通过邮件、手机方式通知您，可在告警通知处，为此告警规则配置行动规则。如果此处无行动规则，请新建告警行动规则。