Standard资源池节点故障定位
节点故障定位
对于Standard资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障。
隔离码 |
分类 |
子类 |
异常中文描述 |
检测方法 |
---|---|---|---|---|
A050101 |
GPU |
显存 |
GPU ECC错误。 |
通过nvidia-smi -a查询到存在Pending Page Blacklist为Yes的记录,或多比特Register File大于0。对于Ampere架构的GPU,存在以下场景:
(参考NVIDIA GPU Memory Error Management) Ampere架构GPU显存错误分级:
|
A050102 |
GPU |
其他 |
nvidia-smi返回信息中包含ERR。 |
通过nvidia-smi -a查询到ERR!,通常为硬件问题,如电源风扇等问题。 |
A050103 |
GPU |
其他 |
nvidia-smi执行错误,超时或者不存在。 |
执行nvidia-smi退出码非0。 |
A050104 |
GPU |
显存 |
ECC错误到达64次。 |
通过nvidia-smi -a查询到Retired Pages中,Single Bit和Double Bit之和大于64。 |
A050148 |
GPU |
其他 |
infoROM告警。 |
执行nvidia-smi的返回信息中包含“infoROM is corrupted”告警。 |
A050109 |
GPU |
其他 |
GPU其他错误。 |
检测到的其他GPU错误,通常为硬件问题,请联系技术人员支持。 |
A050147 |
IB |
链路 |
IB网卡异常。 |
ibstat查看网卡非Active状态。 |
A050121 |
NPU |
其他 |
npu dcmi接口检测到driver异常。 |
NPU驱动环境异常。 |
A050122 |
NPU |
其他 |
npu dcmi device异常。 |
NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警。 |
A050123 |
NPU |
链路 |
npu dcmi net异常。 |
NPU网络链接异常。 |
A050129 |
NPU |
其他 |
NPU其他错误。 |
检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 |
A050149 |
NPU |
链路 |
hccn tool网口闪断检查。 |
NPU网络不稳定,存在闪断情况。通过“hccn_tool-i ${device_id} -link_stat -g”查看24小时内闪断5次以上。 |
A050951 |
NPU |
显存 |
NPU ECC次数达到维修阈值。 |
NPU的HBM Double Bit Isolated Pages Count值大于等于64。 |
A050146 |
Runtime |
其他 |
ntp异常。 |
ntpd或者chronyd服务异常。 |
A050202 |
Runtime |
其他 |
节点NotReady。 |
节点不可达,k8sNode存在以下污点之一:
|
A050203 |
Runtime |
掉卡 |
AI正常卡数和实际容量不匹配。 |
检测到存在GPU或NPU掉卡情况。 |
A050206 |
Runtime |
其他 |
Kubelet硬盘只读。 |
“/mnt/paas/kubernetes/kubelet”目录为只读状态。 |
A050801 |
节点管理 |
节点运维 |
资源预留。 |
节点被标记为备机,并具有备机污点。 |
A050802 |
节点管理 |
节点运维 |
未知错误。 |
节点被标记为具有未知故障污点。 |
A200001 |
节点管理 |
驱动升级 |
GPU升级。 |
节点正在执行GPU驱动升级。 |
A200002 |
节点管理 |
驱动升级 |
NPU升级。 |
节点正在执行NPU驱动升级。 |
A200008 |
节点管理 |
节点准入 |
准入检测。 |
节点正在进行节点准入检测,包括基本的节点配置检查和简单的业务验证。 |
A050933 |
节点管理 |
容错Failover |
当节点具有该污点时,会将节点上容错(Failover)业务迁移走。 |
当节点标记该污点时,会将节点上容错(Failover)业务迁移走。 |
A050931 |
训练toolkit |
预检容器 |
训练预检容器检测到GPU错误。 |
训练预检容器检测到GPU错误。 |
A050932 |
训练toolkit |
预检容器 |
训练预检容器检测IB错误。 |
训练预检容器检测IB错误。 |