压测用例配置
NPU性能诊断
对NPU带宽、算力、网络等方面进行性能诊断。
检查项名称 |
检查项说明 |
建议修复方案 |
---|---|---|
BandWidth |
对本地带宽进行诊断,并输出诊断结果。 |
PASS:带宽测试结果正常。 FAIL:带宽测试结果小于参考值,参考带宽结果明显低于预期排查方法或联系客户经理发起维修流程(若无客户经理可提交工单)。 |
Aiflops |
对芯片进行算力诊断,并输出测试结果。 |
PASS:算力测试结果正常(大于参考值)。 WARN:算力测试过程中触发芯片过温。 FAIL:算力测试结果小于参考值,请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
眼图测试 |
对信号质量进行诊断,并输出诊断结果。 |
PASS:检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。 SKIP:当前设备不支持眼图诊断。 IMPORTANT_WARN:重要警告,PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系客户经理发起维修流程(若无客户经理可提交工单)。 FAIL:眼图检测执行失败,请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
NPU压测
对NPU算力、内存、通信链路等方面进行压力测试。
检查项名称 |
检查项说明 |
建议修复方案 |
---|---|---|
AI Core压测 |
对AICore ERROR进行压力测试,并输出诊断结果。 |
PASS:压力测试结果无异常。 SKIP:集群节点不支持aicore压测。 EMERGENCY_WARN:紧急警告,请更换硬件。 FAIL:AI Core压测失败,请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
HBM压测 |
对高带宽内存进行诊断,并输出诊断结果。 |
PASS:片上内存压测通过。 SKIP:当前设备不支持片上内存压测。 FAIL:片上内存压测失败,有新增的多比特隔离页。参考内存不足排查方法或联系客户经理发起维修流程(若无客户经理可提交工单)。 |
P2P压测 |
测试指定源头Device到目标Device的HCCS通信链路是否存在硬件故障,并输出测试结果。 |
PASS:压力测试通过,结果无异常。 SKIP:当前设备不支持P2P压测。 EMERGENCY_WARN:紧急警告,压测结果为不通过,建议联系华为工程师更换硬件。 FAIL:p2p压测执行失败,请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
网络压测
对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。
检查项名称 |
检查项说明 |
建议修复方案 |
---|---|---|
单机HCCL通信带宽测试 |
单机场景下对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。 |
请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
多机HCCL通信带宽测试 |
多机场景下对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。 |
请联系客户经理发起维修流程(若无客户经理可提交工单)。 |