资源池节点故障定位
节点故障定位
对于专属资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。
| 隔离码 | 分类 | 子类 | 异常中文描述 | 检测方法 |
|---|---|---|---|---|
| A050101 | GPU | 显存 | GPU ECC错误。 | 通过nvidia-smi -a查询到存在Pending Page Blacklist为Yes的记录,或多比特Register File大于0。对于Ampere架构的GPU,存在以下场景:
Ampere架构GPU显存错误分级:
|
| A050102 | GPU | 其他 | nvidia-smi返回信息中包含ERR。 | 通过nvidia-smi -a查询到ERR!,通常为硬件问题,如电源风扇等问题。 |
| A050103 | GPU | 其他 | nvidia-smi执行错误,超时或者不存在。 | 执行nvidia-smi退出码非0。 |
| A050104 | GPU | 显存 | ECC错误到达64次。 | 通过nvidia-smi -a查询到Retired Pages中,Single Bit和Double Bit之和大于64。 |
| A050148 | GPU | 其他 | infoROM告警。 | 执行nvidia-smi的返回信息中包含“infoROM is corrupted”告警。 |
| A050109 | GPU | 其他 | GPU其他错误。 | 检测到的其他GPU错误,通常为硬件问题,请联系技术人员支持。 |
| A050147 | IB | 链路 | IB网卡异常。 | ibstat查看网卡非Active状态。 |
| A050121 | NPU | 其他 | npu dcmi接口检测到driver异常。 | NPU驱动环境异常。 |
| A050122 | NPU | 其他 | npu dcmi device异常。 | NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警。 |
| A050123 | NPU | 链路 | npu dcmi net异常。 | NPU网络连接异常。 |
| A050129 | NPU | 其他 | NPU其他错误。 | 检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 |
| A050149 | NPU | 链路 | hccn tool网口闪断检查。 | NPU网络不稳定,存在闪断情况。通过“hccn_tool-i ${device_id} -link_stat -g”查看24小时内闪断5次以上。 |
| A050951 | NPU | 显存 | NPU ECC次数达到维修阈值。 | NPU的HBM Double Bit Isolated Pages Count值大于等于64。 |
| A050146 | Runtime | 其他 | ntp异常。 | ntpd或者chronyd服务异常。 |
| A050202 | Runtime | 其他 | 节点NotReady。 | 节点不可达,k8sNode存在以下污点之一:
|
| A050203 | Runtime | 掉卡 | AI正常卡数和实际容量不匹配。 | 检测到存在GPU或NPU掉卡情况。 |
| A050206 | Runtime | 其他 | Kubelet硬盘只读。 | “/mnt/paas/kubernetes/kubelet”目录为只读状态。 |
| A050801 | 节点管理 | 节点运维 | 资源预留。 | 节点被标记为备机,并具有备机污点。 |
| A050802 | 节点管理 | 节点运维 | 未知错误。 | 节点被标记为具有未知故障污点。 |
| A200001 | 节点管理 | 驱动升级 | GPU升级。 | 节点正在执行GPU驱动升级。 |
| A200002 | 节点管理 | 驱动升级 | NPU升级。 | 节点正在执行NPU驱动升级。 |
| A200008 | 节点管理 | 节点准入 | 准入检测。 | 节点正在进行节点准入检测,包括基本的节点配置检查和简单的业务验证。 |
| A050933 | 节点管理 | 容错Failover | 当节点具有该污点时,会将节点上容错(Failover)业务迁移走。 | 当节点标记该污点时,会将节点上容错(Failover)业务迁移走。 |
| A050931 | 训练toolkit | 预检容器 | 训练预检容器检测到GPU错误。 | 训练预检容器检测到GPU错误。 |
| A050932 | 训练toolkit | 预检容器 | 训练预检容器检测IB错误。 | 训练预检容器检测IB错误。 |
| A050804 | 硬件故障 | 硬件故障 | 通过硬件告警发现。 | 硬件告警监控发现。 请在事件中心授权修复,详细请参考事件中心授权运维。 |
配置节点事件类告警通知
节点故障事件会上报到AOM,您可以在AOM配置短信、邮件等通知方式。
以下步骤基于AOM2.0配置。
