节点故障定位

故障说明和处理建议

图1 Lite池故障处理流程
点击放大

对于ModelArts Lite资源池，每个节点会以DaemonSet方式部署node-agent组件，该组件会检测节点状态，并将检测结果写到K8S NodeCondtition中。同时，节点故障指标默认会上报到AOM，您可在AOM配置告警通知。

当发生节点异常时，在故障初步分析阶段，您可先按表1识别是否为亚健康并自助进行处理，若不是，则为故障，请联系客户经理发起维修流程（若无客户经理可提交工单）。

表1 节点故障类型定义
NodeCondition Type	分类	子类	异常中文描述	检测方法	处理建议
NT_NPU_DEVICE	NPU	其他	npu dcmi device异常。	NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警。	可能是亚健康，建议先重启节点，若重启节点后未恢复，发起维修流程。
NT_NPU_NET	NPU	链路	npu dcmi net异常。	NPU网络链接异常。	可能是亚健康，建议先重启节点，若重启节点后未恢复，发起维修流程。
NT_NPU_CARD_LOSE	NPU	掉卡	NPU卡丢失。	节点规格的NPU卡数和k8sNode中可调度卡数不一致。	可能是亚健康，建议先重启节点，若重启节点后未恢复，发起维修流程。
NT_NPU_OTHER	NPU	其他	NPU其他错误。	检测到的其他NPU错误，通常为不可自纠正的异常，请联系技术人员支持。	发起维修流程。
NT_NPU_ECC_COUNT	NPU	显存	NPU ECC次数达到维修阈值。	NPU的HBM总的多Bit Ecc隔离地址记录达到64个。	发起维修流程。
NT_NET_NTP_CHECK	Runtime	其他	ntp异常。	ntpd或者chronyd服务异常。	发起维修流程。
NT_KUBE_DISK_READONLY_CHECK	Runtime	其他	Kubelet硬盘只读	以下目录只读： /mnt/paas/kubernetes/kubelet	发起维修流程。
NT_GPU_SMI_ECC_CHECK	GPU	显存	GPU ECC错误。	通过nvidia-smi -a查询到存在Pending Page Blacklist为Yes的记录，或多比特Register File大于0。对于Ampere架构的GPU，存在以下场景：存在不可纠正的SRAM错误。存在Remapping Failure记录。 dmsg中存在Xid 95事件。（参考NVIDIA GPU Memory Error Management） Ampere架构GPU显存错误分级： L1: 可纠正ECC错误（单比特ECC错误），不影响业务。观测方式：nvidia-smi -a中查询到Volatile Correctable记录。 L2: 不可纠正ECC错误（多比特ECC错误），当次业务受损，重启进程可恢复。观测方式：nvidia-smi -a中查询到Volatile Uncorrectable记录。 L3: 错误未被抑制，可能影响后续业务，需要重置卡或重启节点。观测方式：Xid事件中包含95事件。(Remapped的Pending记录只作为提示，当业务空闲时进行卡重置触发重映射即可) L4: 需要换卡，SRAM Uncorrectable>4或者Remapped Failed。	可能是亚健康，建议先重启节点，若重启节点后未恢复，发起维修流程。
NT_GPU_SMI_ERROR	GPU	其他	nvidia-smi返回信息中包含ERR。	通过nvidia-smi -a查询到ERR!，通常为硬件问题，如电源风扇等问题。	发起维修流程。
NT_GPU_SMI_RUNTIME	GPU	其他	nvidia-smi执行错误，超时或者不存在。	执行nvidia-smi退出码非0。	发起维修流程。
NT_GPU_SMI_ECC_COUNT	GPU	显存	ECC错误到达64次	通过nvidia-smi -a查询到Retired Pages中，Single Bit和Double Bit之和大于64。	发起维修流程。
NT_GPU_CARD_LOSE	GPU	掉卡	GPU卡丢失。	节点规格的GPU卡数和以下任意值不相等： lspci可见GPU卡数。 nvidia-smi可见卡数。 k8s可调度卡数不相等。	发起维修流程。
NT_GPU_SMI_INFOROM_ERROR	GPU	其他	infoROM告警。	执行nvidia-smi的返回信息中包含“infoROM is corrupted”告警。	发起维修流程。
NT_GPU_OTHER	GPU	其他	GPU其他错误。	检测到的其他GPU错误，通常为硬件问题，请联系技术人员支持。	发起维修流程。
NT_NET_IB_CHECK	IB	链路	IB网卡异常。	ibstat查看网卡非Active状态。	可能是亚健康，建议先重启节点，若重启节点后未恢复，发起维修流程。

配置节点告警通知

节点故障指标(nt_npg)默认会上报到AOM，您可以在AOM配置短信、邮件等通知方式。

以下步骤基于AOM1.0配置。

登录AOM控制台
在左侧导航栏选择“告警 > 告警规则”，在右上角单击“添加告警”。
设置告警规则（以NPU掉卡为例）。
- 规则类型：选择阈值类告警。
- 监控对象：选择命令行输入。
- 命令行输入框：
```
sum(nt_npg{type="NT_NPU_CARD_LOSE"} !=2) by (cluster_name, node_ip,type)
```
  图2 告警规则设置
- 告警条件：选择触发条件在1个监控周期内，如果平均值>=1达到连续1次时，产生重要告警。
- 告警通知（可选）：若需要将告警通过邮件、手机方式通知您，可在告警通知处，为此告警规则配置行动规则。若此处无行动规则，请新建告警行动规则。

父主题： k8s Cluster资源使用

上一篇：AI诊断

下一篇：调整容器引擎空间大小

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

节点故障定位

故障说明和处理建议

配置节点告警通知

相关文档

相关产品

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线