巡检类型
巡检类型分为标准巡检和深度巡检两种,具体信息如下表:
|
巡检类型 |
使用场景 |
巡检范围 |
优点 |
缺点 |
||
|---|---|---|---|---|---|---|
|
巡检类目 |
巡检项 |
描述 |
||||
|
标准巡检 |
分钟级快速巡检,不影响节点上的作业。 适合用于训练作业前,提前发现硬件隐患;训练作业中,诊断硬件组件是否有问题;训练作业后,维修验证恢复情况。 |
主机配置和状态 |
主机CPU利用率、主机DDR利用率、主机IOStat利用率、磁盘空间使用率、主机进程状态、主机OS版本、主机透明大页等。 |
对节点CPU,内存,磁盘进行巡检。 |
耗时短,0-30分钟左右。 |
对于压测等复杂场景不能有效诊断。 |
|
NPU健康检查 |
CANN与驱动兼容性诊断、驱动健康诊断、网络健康诊断、HBM诊断、信号质量诊断等。 |
对驱动、网络等进行巡检。 |
||||
|
NPU 芯片健康状态、NPU进程状态、NPU CPU利用率、NPU驱动版本、NPU 驱动和硬件兼容性等。 |
对NPU、驱动配置和状态进行巡检。 |
|||||
|
UDPPORT_TEST源端口配置值。 |
对源端口配置值进行巡检。 |
|||||
|
深度巡检 |
小时级巡检,影响节点上的作业。适合用于训练作业前定期维护,集群需要长期作业建议每月使用一次深度巡检,时间比较长;训练作业后,维修验证恢复情况。
注意:
1.选择的压测用例需要确保节点空闲,如果不是空闲节点会导致作业失败,巡检结果异常。请确认相关节点的状态后,再下发压测作业。 2.巡检会长时间占用NPU资源(大约3-8小时),请确保巡检期间集群无业务运行。 |
NPU性能诊断 |
BandWidth |
对本地带宽进行诊断。 |
诊断全面,可针对性进行巡检。 |
耗时长,3-8小时左右,影响整体进度时长。 |
|
Aiflops |
对芯片进行算力诊断。 |
|||||
|
眼图测试 |
查询信号质量的具体数据。 |
|||||
|
NPU压测 |
AI Core压测 |
对AICore进行压力测试。 |
||||
|
HBM压测 |
对高带宽内存进行压力测试。 |
|||||
|
P2P压测 |
源头Device到目标Device的HCCS通信链路是否存在硬件故障 |
|||||
|
网络压测 |
单机HCCL通信带宽测试 |
对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。 |
||||
|
多机HCCL参数面通信带宽测试 |
||||||
|
多机HCCL超平面通信带宽测试 |
||||||
|
RoCE网络带宽测试 |
两个节点间的RoCE网络带宽性能压测。页面仅展示主节点记录。 |
|||||