更新时间:2025-10-22 GMT+08:00
分享

超节点内故障告警

超节点发生节点异常时,在故障初步分析阶段,您可先按表1识别是否为亚健康并自助进行处理

表1 节点故障指标定义

NodeCondition Type

分类

子类

异常中文描述

处理建议

NT_NPU_DEVICE

NPU

其他

npu dcmi device异常

可能是亚健康,建议先重启节点,如果重启节点后未恢复,使用节点重置,并发起维修流程。

NT_NPU_NET

NPU

链路

npu dcmi net异常

可能是亚健康,建议先重启节点,如果重启节点后未恢复,使用节点重置,并发起维修流程。

NT_NPU_CARD_LOSE

NPU

掉卡

NPU卡丢失

可能是亚健康,建议先重启节点,如果重启节点后未恢复,使用节点重置,并发起维修流程。

NT_NPU_OTHER

NPU

其他

NPU其他错误

使用节点重置,并发起维修流程

NT_NPU_ECC_COUNT

NPU

显存

NPU ECC次数达到维修阈值

使用节点重置,并发起维修流程

相关文档