轻量算力节点健康巡检
场景描述
在日常的运维工作中,运维人员在进行压测、健康检查、故障检测和日志分析等操作时面临诸多不便。为了提升运维效率,本场景中通过轻量算力节点与昇腾云脑的联动,实现对轻量算力节点的全面巡检和管理。通过在轻量算力节点资源管理界面增加“创建巡检作业”按钮,使运维人员能够直接从轻量算力节点页面跳转至昇腾云脑页面,创建并执行巡检作业,从而有效提升系统的运维能力和可靠性。
约束限制
- 当前功能仅支持Snt9b节点和超节点Snt9b23。
- 轻量算力节点节点状态处于“运行中”。
前提条件
创建巡检任务的轻量算力节点节点需要安装NodeTaskHub插件, 请在创建任务前确保插件安装完毕,具体参见安装轻量算力节点轻量算力节点AI插件。
创建巡检作业
- 登录ModelArts管理控制台,在左侧导航栏找到资源管理下的轻量算力节点页面。
- 新版控制台:在左侧导航栏中,选择。
- 旧版控制台:在左侧导航栏中,选择。
- 在轻量算力节点“普通节点”的列表页中,单击右侧操作列的,进入创建巡检任务页面,配置参数。
表1 巡检作业配置说明 配置项
参数
说明
基础配置
作业名称
可以自定义填写巡检任务名称。
巡检对象
选择对象
可以选择普通节点、超节点、或整柜节点。在节点列表中勾选待巡检的节点。最多可以选择48个节点下发巡检任务。
巡检类型
标准巡检
分钟级快速巡检,不影响节点上的作业。
深度巡检
小时级巡检,影响节点上的业务。深度巡检任务会长时间占用NPU资源,需要确保巡检期间集群无业务运行。
压测用例配置
NPU性能诊断
通过Bandwidth、Aiflops、眼图测试进行性能诊断。可以选择一个或多个选项进行诊断。
- Bandwidth:对本地带宽进行诊断。
- Aiflops:对芯片进行算力诊断。
- 眼图测试:查询信号质量的具体数据。
NPU压测
通过AI Core、HBM、P2P进行压测。
- AI Core压测:对AI Core ERROR进行压力测试。
- HBM压测:对高带宽内存进行压力测试。
- P2P压测:测试源头Device到目标Device的HCCS通信链路是否存在硬件故障。
网络压测
通过单机HCCL通信带宽测试、多机HCCL带宽测试、RDMA通信带宽测试进行压测。
- 单机HCCL通信带宽测试:在单一计算节点之间进行集合通信性能压测。
- 多机HCCL带宽测试:在多个计算节点之间基线集合通信性能压测。
- RoCE网络带宽测试:两个节点的RoCE网络带宽性能压测。
- 超平面测试:超平面网络集合通信带宽测试。
- 阅读压测须知,输入YES,单击“立即创建”,提交巡检作业。
- 提交巡检作业后,可以在ModelArts控制台的页面查看巡检作业状态和巡检详情。
轻量算力节点与昇腾云脑联动支持的巡检任务
|
巡检项 |
描述 |
是否支持 |
|---|---|---|
|
主机配置和状态 |
主机CPU利用率、主机DDR利用率、主机IOStat利用率、主机进程状态、磁盘空间使用率、主机OS版本、主机透明大页、Nvidia驱动版本、GPU型号、显存容量、CUDA版本、CUDA工具包版本、Docker版本、Docker存储驱动、Docker底层文件系统、Containerd版本、CPU处理器架构、CPU逻辑处理器数量、watchdog阈值、内存条数量、内存总量、内存可用量、透明大页大小、Socket最大连接数、Dummy网卡数量等。 |
|
|
NPU健康检查 |
支持对以下巡检项进行健康检查:NPU 驱动版本、NPU 利用率、NPU 进程状态、NPU 芯片健康状态、NPU 驱动和硬件兼容性、CANN与驱动兼容性诊断、驱动健康诊断、网络健康诊断、HBM诊断、信号质量诊断、NPU卡类型、NPU固件驱动版本、MCU版本、VRD固件版本、源端口配置值诊断。 |
|
|
CCE集群插件配置和状态 |
CCE集群版本、node-agent版本、volcano版本、huawei-NPU版本、GPU-beta版本 |
|
|
MA任务配置和状态 |
CUDA版本、PYTORCH版本、MIND_SPORE版本、GUEST_OS版本、OBS_SDK版本、CANN版本、MOXING版本、RANK_TABLE版本、TENSOR_FLOW版本、训练作业代码目录、训练作业启动文件、训练作业工作目录、训练作业数据存储信息、训练作业重启策略、训练作业启动命令信息、训练作业环境变量信息、训练作业算法超参信息、训练作业镜像信息、训练作业创建方式信息、训练作业资源池信息、训练作业优先级信息、训练作业sfs turbo信息、训练作业实例信息、MA生命周期状态。 |
|
|
依赖云服务状态 |
支持对依赖的OBS、SFS Turbo云服务状态检查 |
|
|
网络状态(告警) |
支持识别训练作业时间段内网络侧告警 |
|