巡检类型
巡检类型分为标准巡检和深度巡检两种,具体信息如下表:
巡检类型 | 使用场景 | 巡检范围 | 优点 | 缺点 | ||
|---|---|---|---|---|---|---|
巡检类目 | 巡检项 | 描述 | ||||
标准巡检 | 分钟级快速巡检,不影响节点上的作业。 适合用于训练作业前,提前发现硬件隐患;训练作业中,诊断硬件组件是否有问题;训练作业后,维修验证恢复情况。 | 主机配置和状态 | 主机CPU利用率、主机DDR利用率、主机IOStat利用率、磁盘空间使用率、主机进程状态、主机OS版本、主机透明大页等。 | 对节点CPU,内存,磁盘进行巡检。 | 耗时短,0-30分钟左右。 | 对于压测等复杂场景不能有效诊断。 |
NPU健康检查 | CANN与驱动兼容性诊断、驱动健康诊断、网络健康诊断、HBM诊断、信号质量诊断等。 | 对驱动、网络等进行巡检。 | ||||
NPU 芯片健康状态、NPU进程状态、NPU CPU利用率、NPU驱动版本、NPU 驱动和硬件兼容性等。 | 对NPU、驱动配置和状态进行巡检。 | |||||
UDPPORT_TEST源端口配置值。 | 对源端口配置值进行巡检。 | |||||
深度巡检 | 小时级巡检,影响节点上的作业。适合用于训练作业前定期维护,集群需要长期作业建议每月使用一次深度巡检,时间比较长;训练作业后,维修验证恢复情况。 注意: 1.选择的压测用例需要确保节点空闲,如果不是空闲节点会导致作业失败,巡检结果异常。请确认相关节点的状态后,再下发压测作业。 2.巡检会长时间占用NPU资源(大约3-8小时),请确保巡检期间集群无业务运行。 | NPU性能诊断 | BandWidth | 对本地带宽进行诊断。 | 诊断全面,可针对性进行巡检。 | 耗时长,3-8小时左右,影响整体进度时长。 |
Aiflops | 对芯片进行算力诊断。 | |||||
眼图测试 | 查询信号质量的具体数据。 | |||||
NPU压测 | AI Core压测 | 对AICore进行压力测试。 | ||||
HBM压测 | 对高带宽内存进行压力测试。 | |||||
P2P压测 | 源头Device到目标Device的HCCS通信链路是否存在硬件故障 | |||||
网络压测 | 单机HCCL通信带宽测试 | 对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。 | ||||
多机HCCL参数面通信带宽测试 | ||||||
多机HCCL超平面通信带宽测试 | ||||||
RoCE网络带宽测试 | 两个节点间的RoCE网络带宽性能压测。页面仅展示主节点记录。 | |||||

