更新时间:2025-12-01 GMT+08:00
分享

查看巡检结果

查看健康巡检结果操作步骤

  1. 登录ModelArts管理控制台,在左侧导航栏选择“运维管理 > 健康巡检”,进入健康巡检列表页面。
  2. 在“健康巡检”列表中,单击作业名称,进入健康巡检作业详情页,查看巡检作业的基本情况。

    (若选择同时执行两种巡检类型)在巡检详情处,单击页签可切换查看对应巡检类型下内容。

    在“标准巡检”或“深度巡检”的列表中,单击详情,查看相关巡检项及节点情况。

巡检状态说明

表1 巡检作业状态说明

状态类型

说明

巡检作业

表示巡检作业整体状态,详见健康巡检作业状态说明

执行状态

表示对应巡检项的作业执行情况。

执行中:表示作业正在执行中。

正常:表示作业执行完成,具体结果参考巡检结果状态。

异常:表示作业异常,没有获取到巡检结果,可能由节点异常等情况引起,请联系客户经理发起维修流程(若无客户经理可提交工单)。

巡检结果

表示对应巡检项的结果状态,前提是作业执行状态正常。

正常:表示巡检项结果正常,符合预期。

异常:表示结果异常,如对应巡检项的结果指标超出预期范围,可以参考下面具体巡检项说明及建议维修方案进行优化或修复。

标准巡检结果说明

表2 标准巡检类目说明

巡检类目

说明

主机配置和状态

对节点CPU,内存,磁盘进行巡检。

NPU健康检查

对NPU、驱动配置和状态进行巡检。

表3 主机配置和状态

检查项名称

检查项说明

建议修复方案

主机CPU利用率

检查主机CPU利用率,超过80%时巡检结果显示异常。

请结合实际业务状态,判断CPU使用情况是否符合预期。

主机DDR利用率

检查主机内存利用率,超过80%时巡检结果显示异常。

请结合实际业务状态,判断内存使用情况是否符合预期。

主机IOStat利用率

检查主机IOStat利用率,读写延迟超过10ms时巡检结果显示异常。

请结合实际业务状态,判断IOStat使用情况是否符合预期。

主机进程状态

检查主机进程状态。

存在CPU使用率超过80%的进程,请结合实际业务状态,判断进程状态是否符合预期。

磁盘空间使用率

检查磁盘空间利用率,超过80%时巡检结果显示异常。

请结合实际业务状态,清理不需要的目录文件,避免业务异常 。

主机OS版本

检查主机OS版本。

请结合业务影响,判断是否需要升级版本到统一版本。

主机透明大页

检查主机透明大页。

请结合业务影响,判断是否禁用透明大页。

Docker版本

检查Docker版本

请结合业务影响,判断Docker容器是否符合预期。

Docker存储驱动

检查Docker存储驱动

请结合业务影响,判断Docker驱动是否符合预期。

Docker底层文件系统

检查Docker底层文件系统

请结合业务影响,判断Docker文件系统的类型是否符合预期。

Containerd版本

检查Containerd版本

请结合业务影响,判断Container容器是否符合预期。

CPU处理器架构

检查CPU处理器架构

请结合业务影响,判断CPU架构是否符合预期。

CPU逻辑处理器数量

检查CPU逻辑处理器数量

请结合业务影响,判断CPU核心数是否符合预期。

watchdog阈值

检查watchdog阈值

请结合业务影响,判断watchdog阈值是否符合预期。

内存条数量

检查内存条数量

请结合业务影响,判断内存设备数量是否符合预期。

内存总量

检查内存总量

请结合业务影响,判断总内存是否符合预期。

内存可用量

检查内存可用量

请结合业务影响,判断可用内存是否符合预期。

透明大页大小

检查透明大页大小

请结合业务影响,判断透明大页大小是否符合预期。

Socket最大连接数

检查Socket最大连接数

请结合业务影响,判断Socket最大连接数是否符合预期。

Dummy网卡数量

检查Dummy网卡数量

请结合业务影响,判断Dummy网卡数量是否符合预期。

Container类型以及版本

检查Container类型以及版本

请保证所有节点的Container引擎类型和版本一致。

数据盘分区类型

检查数据盘分区类型

请保证所有节点的数据分区类型一致。

本地磁盘利用率

检查本地磁盘利用率

请结合实际业务状态,清理不需要的目录文件,避免业务异常。

主网卡MTU值

检查主网卡MTU值

请保证所有节点的主网卡MTU值一致。

SFS客户端缓存大小

检查SFS客户端缓存大小

请设置SFS客户端缓存大小为1M。

表4 NPU健康检查

检查项名称

检查项说明

建议修复方案

NPU 驱动版本

检查NPU 驱动版本。

请结合业务影响,判断是否需要升级版本到统一版本。

NPU 利用率

检查NPU利用率,超过80%时巡检结果显示异常。

请结合实际业务状态,判断NPU使用情况是否符合预期。

NPU 进程状态

检查NPU 进程状态

NPU进程状态不一致(部分NPU上存在进程,部分NPU没有进程),请结合实际业务状态,判断NPU进程状态是否符合预期。

NPU 芯片健康状态

检查NPU 芯片健康状态

请结合业务影响,判断节点是否空闲或已经隔离。

NPU 驱动和硬件兼容性

检查NPU 驱动和硬件兼容性

请结合实际业务状态,判断驱动和硬件的兼容情况。

CANN与驱动兼容性诊断

对CANN与驱动的兼容性进行诊断,并输出诊断结果。

PASS:cann软件检测正常

FAIL:nnae、nnrt、toolkit均安装异常,驱动安装异常(cann和驱动间的兼容性不满足要求),请联系客户经理发起维修流程(若无客户经理可提交工单)

驱动健康诊断

对驱动的健康状态进行诊断,并输出诊断结果。

HEALTH:驱动固件安装正常,并且驱动状态为健康。

GENERAL_WARN:一般警告(警告内容参考界面中提示的错误信息)。

IMPORTANT_WARN:重要警告(警告内容参考界面中提示的错误信息)。

EMERGENCY_WARN:紧急警告(警告内容参考界面中提示的错误信息)。

FAIL:驱动或固件安装异常,读取驱动健康状态失败,请联系客户经理发起维修流程(若无客户经理可提交工单)

网络健康诊断

对网络健康状态进行诊断,并输出诊断结果。

PASS:网络检测结果健康。

SKIP:当前产品形态不支持该项检测。

INFO:网络检测结果提示。

WARN:网络检测结果告警。

FAIL:网络检测结果失败,请联系客户经理发起维修流程(若无客户经理可提交工单)

HBM诊断

对高带宽内存进行诊断,并输出诊断结果。

PASS:片上内存检测通过,无异常。

SKIP:当前硬件形态不支持片上内存检测。

GENERAL_WARN:历史多比特存在隔离页,告警NPU芯片健康管理故障码为0x80E18401,可以继续使用。

IMPORTANT_WARN:当前实时隔离页数与已隔离页数存在差异,必须进行重启,复位npu芯片。

EMERGENCY_WARN:历史多比特隔离页数及设备隔离行过多,告警NPU芯片健康管理故障码为0x80E18402,建议更换备件。

相同Stack及PC内的隔离行处于不同Bank的数量 ≥ 4,当前设备运行存在高风险,建议更换备件。

相同Stack、相同Sid及不同PC内的隔离行 ≥ 4,当前设备运行存在高风险,建议更换备件。

相同Stack、Sid、PC及Bank内的隔离行 >16,当前设备运行存在高风险,建议更换备件。

相同Stack、Sid、PC及Bank内,排除4bit及以内相邻的错误地址,其他不同地址的数量 > 5,当前设备运行存在高风险,建议更换备件。

FAIL:片上内存检测失败,参考内存不足排查方法或联系客户经理发起维修流程(若无客户经理可提交工单)

信号质量诊断

对信号质量进行诊断,并输出诊断结果。

PASS:检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。

SKIP:当前设备不支持眼图诊断。

IMPORTANT_WARN:重要警告,PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系客户经理发起维修流程(若无客户经理可提交工单)

FAIL:眼图检测执行失败,请联系客户经理发起维修流程(若无客户经理可提交工单)

源端口配置值诊断

对源端口配置值进行巡检。

请联系客户经理发起维修流程(若无客户经理可提交工单)

NPU卡类型

检查NPU卡类型

请结合业务影响,判断NPU卡类型是否符合预期。

NPU固件驱动版本

检查NPU固件驱动版本

请结合业务影响,判断NPU固件驱动版本是否符合预期。

MCU版本

检查MCU版本

请结合业务影响,判断MCU版本是否符合预期。

VRD固件版本

检查VRD固件版本

请结合业务影响,判断VRD固件版本是否符合预期。

pcie建链信息验证

验证pcie建链信息

请结合业务影响,判断pcie建链信息是否符合预期。

npu参数面网卡link状态验证

验证npu参数面网卡link状态

请结合业务影响,判断npu参数面网卡link状态验证 是否符合预期。

npu网络健康验证

验证npu网络健康

请结合业务影响,判断npu网络健康验证是否符合预期。

光模块闪断

检查光模块闪断

请结合业务影响,判断光模块闪断是否符合预期。

NPU warning告警

检查NPU warning告警

请结合业务影响,判断NPU warning是否符合预期。

NPU显存残留

检查NPU显存残留

请结合业务影响,判断NPU 显存是否符合预期。

TLS开关

检查TLS开关

请结合业务影响,判断TLS开关是否符合预期。

hccs health status 状态

检查hccs health status 状态

请结合业务影响,判断hccs health status 状态,验证是否符合预期。

NPU收发光功率

检查NPU收发光功率

请结合业务影响,判断NPU收发光功率是否符合预期。

光模块Media SNR

检查光模块Media SNR

请结合业务影响,判断光模块Media SNR是否符合预期。

光模块Host SNR

检查光模块Host SNR

请结合业务影响,判断光模块Host SNR 是否符合预期。

CDR SNR

检查CDR SNR

请检查每个Device的CDR-SNR值。

NPU serdes

检查NPU serdes

请结合业务影响,判断NPU serdes 是否符合预期。

多比特ecc

检查多比特ecc

请联系华为工程师处理。

端口降lane

检查端口降lane

请联系华为工程师处理。

NPU残留进程

检查NPU残留进程

请清理npu残留进程。

ROCE网卡MTU值

检查ROCE网卡MTU值

请保证所有节点roce网卡mtu值一致。

NPU预留端口

检查NPU预留端口

请保证npu预留端口为60001-60015。

使能PFC优先队列配置

检查使能PFC优先队列配置

请设置各设备的使能PFC优先队列为:00001000。

PFC水线

检查PFC水线

请设置各设备的PFC上水线为:250880 250880 250880 250880 36096 36096 36096 36096,下水线为:244736 244736 244736 244736 29952 29952 29952 29952。

深度巡检结果说明

表5 深度巡检类目说明

巡检类目名称

说明

NPU性能诊断

对NPU带宽、算力、网络等方面进行性能诊断。

NPU压测

对NPU算力、内存、通信链路等方面进行压力测试。

网络压测

对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能、RoCE网络带宽、超平面网络集合通信带宽测试进行压测。

表6 NPU性能诊断

检查项名称

检查项说明

建议修复方案

BandWidth

对本地带宽进行诊断,并输出诊断结果。

PASS:带宽测试结果正常。

FAIL:带宽测试结果小于参考值,参考带宽结果明显低于预期排查方法联系客户经理发起维修流程(若无客户经理可提交工单)

Aiflops

对芯片进行算力诊断,并输出测试结果。

PASS:算力测试结果正常(大于参考值)。

WARN:算力测试过程中触发芯片过温。

FAIL:算力测试结果小于参考值,请联系客户经理发起维修流程(若无客户经理可提交工单)

眼图测试

对信号质量进行诊断,并输出诊断结果。

PASS:检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。

SKIP:当前设备不支持眼图诊断。

IMPORTANT_WARN:重要警告,PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系客户经理发起维修流程(若无客户经理可提交工单)

FAIL:眼图检测执行失败,请联系客户经理发起维修流程(若无客户经理可提交工单)

表7 NPU压测

检查项名称

检查项说明

建议修复方案

AI Core压测

对AICore ERROR进行压力测试,并输出诊断结果。

PASS:压力测试结果无异常。

SKIP:集群节点不支持aicore压测。

EMERGENCY_WARN紧急警告,请更换硬件。

FAIL:AI Core压测失败,请联系客户经理发起维修流程(若无客户经理可提交工单)

HBM压测

对高带宽内存进行诊断,并输出诊断结果。

PASS:片上内存压测通过。

SKIP:当前设备不支持片上内存压测。

FAIL:片上内存压测失败,有新增的多比特隔离页。参考内存不足排查方法或联系客户经理发起维修流程(若无客户经理可提交工单)

P2P压测

测试指定源头Device到目标Device的HCCS通信链路是否存在硬件故障,并输出测试结果。

PASS:压力测试通过,结果无异常。

SKIP:当前设备不支持P2P压测。

EMERGENCY_WARN:紧急警告,压测结果为不通过,建议联系华为工程师更换硬件。

FAIL:p2p压测执行失败,请联系客户经理发起维修流程(若无客户经理可提交工单)

表8 网络压测

检查项名称

检查项说明

建议修复方案

单机HCCL通信带宽测试

单机场景下对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。

请联系客户经理发起维修流程(若无客户经理可提交工单)

多机HCCL通信带宽测试

多机场景下对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。

请联系客户经理发起维修流程(若无客户经理可提交工单)。

RoCE网络带宽测试

对两个节点之间的RoCE网络带宽进行性能压测,测试结果展示两个节点间每个NPU之间的双向带宽,如节点1卡1与节点2卡1双向带宽之和。

请联系运维人员。

多机HCCL超平面通信带宽测试

多机场景下对超平面HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行压测。

请联系运维人员。

相关文档