查看巡检结果
查看健康巡检结果操作步骤
- 登录ModelArts管理控制台,在左侧导航栏选择“运维管理 > 健康巡检”,进入健康巡检列表页面。
- 在“健康巡检”列表中,单击作业名称,进入健康巡检作业详情页,查看巡检作业的基本情况。
(若选择同时执行两种巡检类型)在巡检详情处,单击页签可切换查看对应巡检类型下内容。
在“标准巡检”或“深度巡检”的列表中,单击详情,查看相关巡检项及节点情况。
巡检状态说明
|
状态类型 |
说明 |
|---|---|
|
巡检作业 |
表示巡检作业整体状态,详见健康巡检作业状态说明。 |
|
执行状态 |
表示对应巡检项的作业执行情况。 执行中:表示作业正在执行中。 正常:表示作业执行完成,具体结果参考巡检结果状态。 异常:表示作业异常,没有获取到巡检结果,可能由节点异常等情况引起,请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
巡检结果 |
表示对应巡检项的结果状态,前提是作业执行状态正常。 正常:表示巡检项结果正常,符合预期。 异常:表示结果异常,如对应巡检项的结果指标超出预期范围,可以参考下面具体巡检项说明及建议维修方案进行优化或修复。 |
标准巡检结果说明
|
检查项名称 |
检查项说明 |
建议修复方案 |
|---|---|---|
|
主机CPU利用率 |
检查主机CPU利用率,超过80%时巡检结果显示异常。 |
请结合实际业务状态,判断CPU使用情况是否符合预期。 |
|
主机DDR利用率 |
检查主机内存利用率,超过80%时巡检结果显示异常。 |
请结合实际业务状态,判断内存使用情况是否符合预期。 |
|
主机IOStat利用率 |
检查主机IOStat利用率,读写延迟超过10ms时巡检结果显示异常。 |
请结合实际业务状态,判断IOStat使用情况是否符合预期。 |
|
主机进程状态 |
检查主机进程状态。 |
存在CPU使用率超过80%的进程,请结合实际业务状态,判断进程状态是否符合预期。 |
|
磁盘空间使用率 |
检查磁盘空间利用率,超过80%时巡检结果显示异常。 |
请结合实际业务状态,清理不需要的目录文件,避免业务异常 。 |
|
主机OS版本 |
检查主机OS版本。 |
请结合业务影响,判断是否需要升级版本到统一版本。 |
|
主机透明大页 |
检查主机透明大页。 |
请结合业务影响,判断是否禁用透明大页。 |
|
Docker版本 |
检查Docker版本 |
请结合业务影响,判断Docker容器是否符合预期。 |
|
Docker存储驱动 |
检查Docker存储驱动 |
请结合业务影响,判断Docker驱动是否符合预期。 |
|
Docker底层文件系统 |
检查Docker底层文件系统 |
请结合业务影响,判断Docker文件系统的类型是否符合预期。 |
|
Containerd版本 |
检查Containerd版本 |
请结合业务影响,判断Container容器是否符合预期。 |
|
CPU处理器架构 |
检查CPU处理器架构 |
请结合业务影响,判断CPU架构是否符合预期。 |
|
CPU逻辑处理器数量 |
检查CPU逻辑处理器数量 |
请结合业务影响,判断CPU核心数是否符合预期。 |
|
watchdog阈值 |
检查watchdog阈值 |
请结合业务影响,判断watchdog阈值是否符合预期。 |
|
内存条数量 |
检查内存条数量 |
请结合业务影响,判断内存设备数量是否符合预期。 |
|
内存总量 |
检查内存总量 |
请结合业务影响,判断总内存是否符合预期。 |
|
内存可用量 |
检查内存可用量 |
请结合业务影响,判断可用内存是否符合预期。 |
|
透明大页大小 |
检查透明大页大小 |
请结合业务影响,判断透明大页大小是否符合预期。 |
|
Socket最大连接数 |
检查Socket最大连接数 |
请结合业务影响,判断Socket最大连接数是否符合预期。 |
|
Dummy网卡数量 |
检查Dummy网卡数量 |
请结合业务影响,判断Dummy网卡数量是否符合预期。 |
|
Container类型以及版本 |
检查Container类型以及版本 |
请保证所有节点的Container引擎类型和版本一致。 |
|
数据盘分区类型 |
检查数据盘分区类型 |
请保证所有节点的数据分区类型一致。 |
|
本地磁盘利用率 |
检查本地磁盘利用率 |
请结合实际业务状态,清理不需要的目录文件,避免业务异常。 |
|
主网卡MTU值 |
检查主网卡MTU值 |
请保证所有节点的主网卡MTU值一致。 |
|
SFS客户端缓存大小 |
检查SFS客户端缓存大小 |
请设置SFS客户端缓存大小为1M。 |
|
检查项名称 |
检查项说明 |
建议修复方案 |
|---|---|---|
|
NPU 驱动版本 |
检查NPU 驱动版本。 |
请结合业务影响,判断是否需要升级版本到统一版本。 |
|
NPU 利用率 |
检查NPU利用率,超过80%时巡检结果显示异常。 |
请结合实际业务状态,判断NPU使用情况是否符合预期。 |
|
NPU 进程状态 |
检查NPU 进程状态 |
NPU进程状态不一致(部分NPU上存在进程,部分NPU没有进程),请结合实际业务状态,判断NPU进程状态是否符合预期。 |
|
NPU 芯片健康状态 |
检查NPU 芯片健康状态 |
请结合业务影响,判断节点是否空闲或已经隔离。 |
|
NPU 驱动和硬件兼容性 |
检查NPU 驱动和硬件兼容性 |
请结合实际业务状态,判断驱动和硬件的兼容情况。 |
|
CANN与驱动兼容性诊断 |
对CANN与驱动的兼容性进行诊断,并输出诊断结果。 |
PASS:cann软件检测正常 FAIL:nnae、nnrt、toolkit均安装异常,驱动安装异常(cann和驱动间的兼容性不满足要求),请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
驱动健康诊断 |
对驱动的健康状态进行诊断,并输出诊断结果。 |
HEALTH:驱动固件安装正常,并且驱动状态为健康。 GENERAL_WARN:一般警告(警告内容参考界面中提示的错误信息)。 IMPORTANT_WARN:重要警告(警告内容参考界面中提示的错误信息)。 EMERGENCY_WARN:紧急警告(警告内容参考界面中提示的错误信息)。 FAIL:驱动或固件安装异常,读取驱动健康状态失败,请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
网络健康诊断 |
对网络健康状态进行诊断,并输出诊断结果。 |
PASS:网络检测结果健康。 SKIP:当前产品形态不支持该项检测。 INFO:网络检测结果提示。 WARN:网络检测结果告警。 FAIL:网络检测结果失败,请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
HBM诊断 |
对高带宽内存进行诊断,并输出诊断结果。 |
PASS:片上内存检测通过,无异常。 SKIP:当前硬件形态不支持片上内存检测。 GENERAL_WARN:历史多比特存在隔离页,告警NPU芯片健康管理故障码为0x80E18401,可以继续使用。 IMPORTANT_WARN:当前实时隔离页数与已隔离页数存在差异,必须进行重启,复位npu芯片。 EMERGENCY_WARN:历史多比特隔离页数及设备隔离行过多,告警NPU芯片健康管理故障码为0x80E18402,建议更换备件。 相同Stack及PC内的隔离行处于不同Bank的数量 ≥ 4,当前设备运行存在高风险,建议更换备件。 相同Stack、相同Sid及不同PC内的隔离行 ≥ 4,当前设备运行存在高风险,建议更换备件。 相同Stack、Sid、PC及Bank内的隔离行 >16,当前设备运行存在高风险,建议更换备件。 相同Stack、Sid、PC及Bank内,排除4bit及以内相邻的错误地址,其他不同地址的数量 > 5,当前设备运行存在高风险,建议更换备件。 FAIL:片上内存检测失败,参考内存不足排查方法或联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
信号质量诊断 |
对信号质量进行诊断,并输出诊断结果。 |
PASS:检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。 SKIP:当前设备不支持眼图诊断。 IMPORTANT_WARN:重要警告,PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系客户经理发起维修流程(若无客户经理可提交工单)。 FAIL:眼图检测执行失败,请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
源端口配置值诊断 |
对源端口配置值进行巡检。 |
请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
NPU卡类型 |
检查NPU卡类型 |
请结合业务影响,判断NPU卡类型是否符合预期。 |
|
NPU固件驱动版本 |
检查NPU固件驱动版本 |
请结合业务影响,判断NPU固件驱动版本是否符合预期。 |
|
MCU版本 |
检查MCU版本 |
请结合业务影响,判断MCU版本是否符合预期。 |
|
VRD固件版本 |
检查VRD固件版本 |
请结合业务影响,判断VRD固件版本是否符合预期。 |
|
pcie建链信息验证 |
验证pcie建链信息 |
请结合业务影响,判断pcie建链信息是否符合预期。 |
|
npu参数面网卡link状态验证 |
验证npu参数面网卡link状态 |
请结合业务影响,判断npu参数面网卡link状态验证 是否符合预期。 |
|
npu网络健康验证 |
验证npu网络健康 |
请结合业务影响,判断npu网络健康验证是否符合预期。 |
|
光模块闪断 |
检查光模块闪断 |
请结合业务影响,判断光模块闪断是否符合预期。 |
|
NPU warning告警 |
检查NPU warning告警 |
请结合业务影响,判断NPU warning是否符合预期。 |
|
NPU显存残留 |
检查NPU显存残留 |
请结合业务影响,判断NPU 显存是否符合预期。 |
|
TLS开关 |
检查TLS开关 |
请结合业务影响,判断TLS开关是否符合预期。 |
|
hccs health status 状态 |
检查hccs health status 状态 |
请结合业务影响,判断hccs health status 状态,验证是否符合预期。 |
|
NPU收发光功率 |
检查NPU收发光功率 |
请结合业务影响,判断NPU收发光功率是否符合预期。 |
|
光模块Media SNR |
检查光模块Media SNR |
请结合业务影响,判断光模块Media SNR是否符合预期。 |
|
光模块Host SNR |
检查光模块Host SNR |
请结合业务影响,判断光模块Host SNR 是否符合预期。 |
|
CDR SNR |
检查CDR SNR |
请检查每个Device的CDR-SNR值。 |
|
NPU serdes |
检查NPU serdes |
请结合业务影响,判断NPU serdes 是否符合预期。 |
|
多比特ecc |
检查多比特ecc |
请联系华为工程师处理。 |
|
端口降lane |
检查端口降lane |
请联系华为工程师处理。 |
|
NPU残留进程 |
检查NPU残留进程 |
请清理npu残留进程。 |
|
ROCE网卡MTU值 |
检查ROCE网卡MTU值 |
请保证所有节点roce网卡mtu值一致。 |
|
NPU预留端口 |
检查NPU预留端口 |
请保证npu预留端口为60001-60015。 |
|
使能PFC优先队列配置 |
检查使能PFC优先队列配置 |
请设置各设备的使能PFC优先队列为:00001000。 |
|
PFC水线 |
检查PFC水线 |
请设置各设备的PFC上水线为:250880 250880 250880 250880 36096 36096 36096 36096,下水线为:244736 244736 244736 244736 29952 29952 29952 29952。 |
深度巡检结果说明
|
巡检类目名称 |
说明 |
|---|---|
|
对NPU带宽、算力、网络等方面进行性能诊断。 |
|
|
对NPU算力、内存、通信链路等方面进行压力测试。 |
|
|
对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能、RoCE网络带宽、超平面网络集合通信带宽测试进行压测。 |
|
检查项名称 |
检查项说明 |
建议修复方案 |
|---|---|---|
|
BandWidth |
对本地带宽进行诊断,并输出诊断结果。 |
PASS:带宽测试结果正常。 FAIL:带宽测试结果小于参考值,参考带宽结果明显低于预期排查方法或联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
Aiflops |
对芯片进行算力诊断,并输出测试结果。 |
PASS:算力测试结果正常(大于参考值)。 WARN:算力测试过程中触发芯片过温。 FAIL:算力测试结果小于参考值,请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
眼图测试 |
对信号质量进行诊断,并输出诊断结果。 |
PASS:检测通过,NPU上PCIe、HCCS和RoCE通信端口的信号质量正常。 SKIP:当前设备不支持眼图诊断。 IMPORTANT_WARN:重要警告,PCIe、HCCS和RoCE(其中的一项或多项)信号质量有异常,请联系客户经理发起维修流程(若无客户经理可提交工单)。 FAIL:眼图检测执行失败,请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
检查项名称 |
检查项说明 |
建议修复方案 |
|---|---|---|
|
AI Core压测 |
对AICore ERROR进行压力测试,并输出诊断结果。 |
PASS:压力测试结果无异常。 SKIP:集群节点不支持aicore压测。 EMERGENCY_WARN:紧急警告,请更换硬件。 FAIL:AI Core压测失败,请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
HBM压测 |
对高带宽内存进行诊断,并输出诊断结果。 |
PASS:片上内存压测通过。 SKIP:当前设备不支持片上内存压测。 FAIL:片上内存压测失败,有新增的多比特隔离页。参考内存不足排查方法或联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
P2P压测 |
测试指定源头Device到目标Device的HCCS通信链路是否存在硬件故障,并输出测试结果。 |
PASS:压力测试通过,结果无异常。 SKIP:当前设备不支持P2P压测。 EMERGENCY_WARN:紧急警告,压测结果为不通过,建议联系华为工程师更换硬件。 FAIL:p2p压测执行失败,请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
检查项名称 |
检查项说明 |
建议修复方案 |
|---|---|---|
|
单机HCCL通信带宽测试 |
单机场景下对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。 |
请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
多机HCCL通信带宽测试 |
多机场景下对HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行诊断。 |
请联系客户经理发起维修流程(若无客户经理可提交工单)。 |
|
RoCE网络带宽测试 |
对两个节点之间的RoCE网络带宽进行性能压测,测试结果展示两个节点间每个NPU之间的双向带宽,如节点1卡1与节点2卡1双向带宽之和。 |
请联系运维人员。 |
|
多机HCCL超平面通信带宽测试 |
多机场景下对超平面HCCL(Huawei Collective Communication Library)集合通信的功能正确性以及性能进行压测。 |
请联系运维人员。 |