巡检类型
巡检类型分为标准巡检和深度巡检两种,具体信息如下表:
巡检类型 |
使用场景 |
巡检范围 |
优点 |
缺点 |
||
---|---|---|---|---|---|---|
巡检类目 |
巡检项 |
描述 |
||||
标准巡检 |
分钟级快速巡检,不影响节点上的作业。 适合用于训练作业前,提前发现硬件隐患;训练作业中,诊断硬件组件是有否有问题;训练作业后,维修验证恢复情况。 |
主机配置和状态 |
主机CPU利用率、主机DDR利用率、主机IOStat利用率、磁盘空间使用率、主机进程状态、主机OS版本、主机透明大页等。 |
对节点CPU,内存,磁盘进行巡检。 |
耗时短,0-30分钟左右。 |
对于压测等复杂场景不能有效诊断。 |
NPU健康检查 |
CANN与驱动兼容性诊断、驱动健康诊断、网络健康诊断、HBM诊断、信号质量诊断等。 |
对驱动、网络等进行巡检。 |
||||
NPU 芯片健康状态、NPU进程状态、NPU CPU利用率、NPU驱动版本、NPU 驱动和硬件兼容性等。 |
对NPU、驱动配置和状态进行巡检。 |
|||||
UDPPORT_TEST源端口配置值。 |
对源端口配置值进行巡检。 |
|||||
深度巡检 |
小时级巡检,影响节点上的作业。适合用于训练作业前定期维护,集群需要长期作业建议每月使用一次深度巡检,时间比较长;训练作业后,维修验证恢复情况。
注意:
1.选择的压测用例需要确保节点空闲,如果不是空闲节点会导致作业失败,巡检结果异常。请确认相关节点的状态后,再下发压测作业。 2.巡检会长时间占用NPU资源(大约3-8小时),请确保巡检期间集群无业务运行。 |
NPU性能诊断 |
BandWidth |
对本地带宽进行诊断。 |
诊断全面,可针对性进行巡检。 |
耗时长,3-8小时左右,影响整体进度时长。 |
Aiflops |
对芯片进行算力诊断。 |
|||||
眼图测试 |
查询信号质量的具体数据。 |
|||||
NPU压测 |
AI Core压测 |
对AICore ERROR进行压力测试。 |
||||
HBM压测 |
对高带宽内存进行压力测试。 |
|||||
P2P压测 |
源头Device到目标Device的HCCS通信链路是否存在硬件故障 |
|||||
网络压测 |
单机HCCL通信带宽测试 |
对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。 |
||||
多机HCCL通信带宽测试 |