轻量算力节点健康巡检

场景描述

在日常的运维工作中，运维人员在进行压测、健康检查、故障检测和日志分析等操作时面临诸多不便。为了提升运维效率，本场景中通过轻量算力节点与昇腾云脑的联动，实现对轻量算力节点的全面巡检和管理。通过在轻量算力节点资源管理界面增加“创建巡检作业”按钮，使运维人员能够直接从轻量算力节点页面跳转至昇腾云脑页面，创建并执行巡检作业，从而有效提升系统的运维能力和可靠性。

约束限制

当前功能仅支持Snt9b和Snt9b21系列的普通节点、Snt9b23的超节点。
轻量算力节点状态处于“运行中”。

前提条件

创建巡检任务的轻量算力节点需要安装NodeTaskHub插件，请在创建任务前确保插件安装完毕，具体参见安装轻量算力节点AI插件。

创建巡检作业

登录ModelArts管理控制台，在左侧导航栏找到资源管理下的轻量算力节点页面。
- 新版控制台：在左侧导航栏中，选择“资源管理 > 轻量算力资源 > 轻量算力节点”。
- 旧版控制台：在左侧导航栏中，选择“资源管理 > 轻量算力节点”。

在轻量算力节点“普通节点”的列表页中，单击右侧操作列的“更多 > 创建巡检作业”，进入创建巡检任务页面，配置参数。

表1 巡检作业配置说明
配置项	参数	说明
基础配置	作业名称	可以自定义填写巡检任务名称。
巡检对象	选择对象	可以选择普通节点、超节点、或整柜节点。在节点列表中勾选待巡检的节点。最多可以选择48个节点下发巡检任务。
巡检类型	标准巡检	分钟级快速巡检，不影响节点上的作业。
巡检类型	深度巡检	小时级巡检，影响节点上的业务。深度巡检任务会长时间占用NPU资源，需要确保巡检期间集群无业务运行。
压测用例配置	NPU性能诊断	通过Bandwidth、Aiflops、眼图测试进行性能诊断。可以选择一个或多个选项进行诊断。 Bandwidth：对本地带宽进行诊断。 Aiflops：对芯片进行算力诊断。眼图测试：查询信号质量的具体数据。
	NPU压测	通过AI Core、HBM、P2P进行压测。 AI Core压测：对AI Core ERROR进行压力测试。 HBM压测：对高带宽内存进行压力测试。 P2P压测：测试源头Device到目标Device的HCCS通信链路是否存在硬件故障。
	网络压测	通过单机HCCL通信带宽测试、多机HCCL带宽测试、RDMA通信带宽测试进行压测。单机HCCL通信带宽测试：在单一计算节点之间进行集合通信性能压测。多机HCCL带宽测试：在多个计算节点之间基线集合通信性能压测。 RoCE网络带宽测试：两个节点的RoCE网络带宽性能压测。超平面测试：超平面网络集合通信带宽测试。

阅读压测须知，输入YES，单击“立即创建”，提交巡检作业。
提交巡检作业后，可以在ModelArts控制台的“运维管理 > 健康巡检”页面查看巡检作业状态和巡检详情。

轻量算力节点与昇腾云脑联动支持的巡检任务

表2 标准巡检
巡检项	描述
主机配置和状态	主机CPU利用率、主机DDR利用率、主机IOStat利用率、主机进程状态、磁盘空间使用率、主机OS版本、主机透明大页、Nvidia驱动版本、GPU型号、显存容量、CUDA版本、CUDA工具包版本、Docker版本、Docker存储驱动、Docker底层文件系统、Containerd版本、CPU处理器架构、CPU逻辑处理器数量、watchdog阈值、内存条数量、内存总量、内存可用量、透明大页大小、Socket最大连接数、Dummy网卡数量等。
NPU健康检查	支持对以下巡检项进行健康检查：NPU 驱动版本、NPU 利用率、NPU 进程状态、NPU 芯片健康状态、NPU 驱动和硬件兼容性、CANN与驱动兼容性诊断、驱动健康诊断、网络健康诊断、HBM诊断、信号质量诊断、NPU卡类型、NPU固件驱动版本、MCU版本、VRD固件版本、源端口配置值诊断。
CCE集群插件配置和状态	CCE集群版本、node-agent版本、volcano版本、huawei-NPU版本、GPU-beta版本
MA任务配置和状态	CUDA版本、PYTORCH版本、MIND_SPORE版本、GUEST_OS版本、OBS_SDK版本、CANN版本、MOXING版本、RANK_TABLE版本、TENSOR_FLOW版本、训练作业代码目录、训练作业启动文件、训练作业工作目录、训练作业数据存储信息、训练作业重启策略、训练作业启动命令信息、训练作业环境变量信息、训练作业算法超参信息、训练作业镜像信息、训练作业创建方式信息、训练作业资源池信息、训练作业优先级信息、训练作业sfs turbo信息、训练作业实例信息、MA生命周期状态。
依赖云服务状态	支持对依赖的OBS、SFS Turbo云服务状态检查
网络状态（告警）	支持识别训练作业时间段内网络侧告警