更新时间:2025-07-24 GMT+08:00

压测用例配置

NPU性能诊断

对NPU带宽、算力、网络等方面进行性能诊断。

表1 NPU性能诊断

检查项名称

检查项说明

建议修复方案

BandWidth

对本地带宽进行诊断,并输出诊断结果。

PASS:带宽测试结果正常。

FAIL:带宽测试结果小于参考值,参考带宽结果明显低于预期排查方法或联系客户经理发起维修流程(若无客户经理可提交工单)。

Aiflops

对芯片进行算力诊断,并输出测试结果。

PASS:算力测试结果正常(大于参考值)。

WARN:算力测试过程中触发芯片过温。

FAIL:算力测试结果小于参考值,请联系客户经理发起维修流程(若无客户经理可提交工单)。

眼图测试

对信号质量进行诊断,并输出诊断结果。

PASS:检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。

SKIP:当前设备不支持眼图诊断。

IMPORTANT_WARN:重要警告,PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系客户经理发起维修流程(若无客户经理可提交工单)。

FAIL:眼图检测执行失败,请联系客户经理发起维修流程(若无客户经理可提交工单)。

NPU压测

对NPU算力、内存、通信链路等方面进行压力测试。

表2 NPU压测

检查项名称

检查项说明

建议修复方案

AI Core压测

对AICore ERROR进行压力测试,并输出诊断结果。

PASS:压力测试结果无异常。

SKIP:集群节点不支持aicore压测。

EMERGENCY_WARN:紧急警告,请更换硬件。

FAIL:AI Core压测失败,请联系客户经理发起维修流程(若无客户经理可提交工单)。

HBM压测

对高带宽内存进行诊断,并输出诊断结果。

PASS:片上内存压测通过。

SKIP:当前设备不支持片上内存压测。

FAIL:片上内存压测失败,有新增的多比特隔离页。参考内存不足排查方法或联系客户经理发起维修流程(若无客户经理可提交工单)。

P2P压测

测试指定源头Device到目标Device的HCCS通信链路是否存在硬件故障,并输出测试结果。

PASS:压力测试通过,结果无异常。

SKIP:当前设备不支持P2P压测。

EMERGENCY_WARN:紧急警告,压测结果为不通过,建议联系华为工程师更换硬件。

FAIL:p2p压测执行失败,请联系客户经理发起维修流程(若无客户经理可提交工单)。

网络压测

对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。

表3 网络压测

检查项名称

检查项说明

建议修复方案

单机HCCL通信带宽测试

单机场景下对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。

请联系客户经理发起维修流程(若无客户经理可提交工单)。

多机HCCL通信带宽测试

多机场景下对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。

请联系客户经理发起维修流程(若无客户经理可提交工单)。