更新时间:2025-05-29 GMT+08:00

巡检类型

巡检类型分为标准巡检和深度巡检两种,具体信息如下表:

表1 标准巡检与深度巡检说明

巡检类型

使用场景

巡检范围

优点

缺点

巡检类目

巡检项

描述

标准巡检

分钟级快速巡检,不影响节点上的作业。

适合用于训练作业前,提前发现硬件隐患;训练作业中,诊断硬件组件是有否有问题;训练作业后,维修验证恢复情况。

主机配置和状态

主机CPU利用率、主机DDR利用率、主机IOStat利用率、磁盘空间使用率、主机进程状态、主机OS版本、主机透明大页等。

对节点CPU,内存,磁盘进行巡检。

耗时短,0-30分钟左右。

对于压测等复杂场景不能有效诊断。

NPU健康检查

CANN与驱动兼容性诊断、驱动健康诊断、网络健康诊断、HBM诊断、信号质量诊断等。

对驱动、网络等进行巡检。

NPU 芯片健康状态、NPU进程状态、NPU CPU利用率、NPU驱动版本、NPU 驱动和硬件兼容性等。

对NPU、驱动配置和状态进行巡检。

UDPPORT_TEST源端口配置值。

对源端口配置值进行巡检。

深度巡检

小时级巡检,影响节点上的作业。适合用于训练作业前定期维护,集群需要长期作业建议每月使用一次深度巡检,时间比较长;训练作业后,维修验证恢复情况。

注意:

1.选择的压测用例需要确保节点空闲,如果不是空闲节点会导致作业失败,巡检结果异常。请确认相关节点的状态后,再下发压测作业。

2.巡检会长时间占用NPU资源(大约3-8小时),请确保巡检期间集群无业务运行。

NPU性能诊断

BandWidth

对本地带宽进行诊断。

诊断全面,可针对性进行巡检。

耗时长,3-8小时左右,影响整体进度时长。

Aiflops

对芯片进行算力诊断。

眼图测试

查询信号质量的具体数据。

NPU压测

AI Core压测

对AICore ERROR进行压力测试。

HBM压测

对高带宽内存进行压力测试。

P2P压测

源头Device到目标Device的HCCS通信链路是否存在硬件故障

网络压测

单机HCCL通信带宽测试

对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。

多机HCCL通信带宽测试