更新时间:2026-02-06 GMT+08:00
分享

轻量算力节点健康巡检

场景描述

在日常的运维工作中,运维人员在进行压测、健康检查、故障检测和日志分析等操作时面临诸多不便。为了提升运维效率,本场景中通过轻量算力节点与昇腾云脑的联动,实现对轻量算力节点的全面巡检和管理。通过在轻量算力节点资源管理界面增加“创建巡检作业”按钮,使运维人员能够直接从轻量算力节点页面跳转至昇腾云脑页面,创建并执行巡检作业,从而有效提升系统的运维能力和可靠性。

约束限制

  • 当前功能仅支持Snt9b节点和超节点Snt9b23。
  • 轻量算力节点节点状态处于“运行中”

前提条件

创建巡检任务的轻量算力节点节点需要安装NodeTaskHub插件, 请在创建任务前确保插件安装完毕,具体参见安装轻量算力节点轻量算力节点AI插件

创建巡检作业

  1. 登录ModelArts管理控制台,在左侧导航栏找到资源管理下的轻量算力节点页面。
    • 新版控制台:在左侧导航栏中,选择资源管理 > 轻量算力资源 > 轻量算力节点
    • 旧版控制台:在左侧导航栏中,选择资源管理 > 轻量算力节点
  2. 在轻量算力节点“普通节点”的列表页中,单击右侧操作列的更多 > 创建巡检作业,进入创建巡检任务页面,配置参数。
    表1 巡检作业配置说明

    配置项

    参数

    说明

    基础配置

    作业名称

    可以自定义填写巡检任务名称。

    巡检对象

    选择对象

    可以选择普通节点、超节点、或整柜节点。在节点列表中勾选待巡检的节点。最多可以选择48个节点下发巡检任务。

    巡检类型

    标准巡检

    分钟级快速巡检,不影响节点上的作业。

    深度巡检

    小时级巡检,影响节点上的业务。深度巡检任务会长时间占用NPU资源,需要确保巡检期间集群无业务运行。

    压测用例配置

    NPU性能诊断

    通过Bandwidth、Aiflops、眼图测试进行性能诊断。可以选择一个或多个选项进行诊断。

    • Bandwidth:对本地带宽进行诊断。
    • Aiflops:对芯片进行算力诊断。
    • 眼图测试:查询信号质量的具体数据。

    NPU压测

    通过AI Core、HBM、P2P进行压测。

    • AI Core压测:对AI Core ERROR进行压力测试。
    • HBM压测:对高带宽内存进行压力测试。
    • P2P压测:测试源头Device到目标Device的HCCS通信链路是否存在硬件故障。

    网络压测

    通过单机HCCL通信带宽测试、多机HCCL带宽测试、RDMA通信带宽测试进行压测。

    • 单机HCCL通信带宽测试:在单一计算节点之间进行集合通信性能压测。
    • 多机HCCL带宽测试:在多个计算节点之间基线集合通信性能压测。
    • RoCE网络带宽测试:两个节点的RoCE网络带宽性能压测。
    • 超平面测试:超平面网络集合通信带宽测试。
  3. 阅读压测须知,输入YES,单击“立即创建”,提交巡检作业。
  4. 提交巡检作业后,可以在ModelArts控制台的运维管理 > 健康巡检页面查看巡检作业状态和巡检详情。

轻量算力节点与昇腾云脑联动支持的巡检任务

表2 标准巡检

巡检项

描述

是否支持

主机配置和状态

主机CPU利用率、主机DDR利用率、主机IOStat利用率、主机进程状态、磁盘空间使用率、主机OS版本、主机透明大页、Nvidia驱动版本、GPU型号、显存容量、CUDA版本、CUDA工具包版本、Docker版本、Docker存储驱动、Docker底层文件系统、Containerd版本、CPU处理器架构、CPU逻辑处理器数量、watchdog阈值、内存条数量、内存总量、内存可用量、透明大页大小、Socket最大连接数、Dummy网卡数量等。

  

NPU健康检查

支持对以下巡检项进行健康检查:NPU 驱动版本、NPU 利用率、NPU 进程状态、NPU 芯片健康状态、NPU 驱动和硬件兼容性、CANN与驱动兼容性诊断、驱动健康诊断、网络健康诊断、HBM诊断、信号质量诊断、NPU卡类型、NPU固件驱动版本、MCU版本、VRD固件版本、源端口配置值诊断。

  

CCE集群插件配置和状态

CCE集群版本、node-agent版本、volcano版本、huawei-NPU版本、GPU-beta版本

  

MA任务配置和状态

CUDA版本、PYTORCH版本、MIND_SPORE版本、GUEST_OS版本、OBS_SDK版本、CANN版本、MOXING版本、RANK_TABLE版本、TENSOR_FLOW版本、训练作业代码目录、训练作业启动文件、训练作业工作目录、训练作业数据存储信息、训练作业重启策略、训练作业启动命令信息、训练作业环境变量信息、训练作业算法超参信息、训练作业镜像信息、训练作业创建方式信息、训练作业资源池信息、训练作业优先级信息、训练作业sfs turbo信息、训练作业实例信息、MA生命周期状态。

  

依赖云服务状态

支持对依赖的OBS、SFS Turbo云服务状态检查

  

网络状态(告警)

支持识别训练作业时间段内网络侧告警

  
        
        
        
        
        

相关文档