配置监控告警(可选)
监控配置
使用CES监控NPU资源
轻量算力节点的监控能力依赖于CES云监控服务,监控需要的Agent插件已经默认安装,申请的NPU资源可以在云监控服务查看到对应监控信息。具体操作请参考轻量算力节点资源监控。
重点关注的指标
常用的监控指标如下表所示,全量支持的监控指标请参考文档轻量算力节点监控指标介绍。
| 序号 | 分类 | 指标名称 | 显示名 | 说明 | 单位 | 进制 | 取值范围 |
|---|---|---|---|---|---|---|---|
| 1 | DDR | npu_util_rate_mem | NPU显存使用率 | NPU卡的显存使用率 | % | 不涉及 | 0~100% |
| 2 | npu_util_rate_mem_bandwidth | NPU显存带宽使用率 | NPU卡的显存带宽使用率 | % | 不涉及 | 0~100% | |
| 3 | HBM | npu_hbm_bandwidth_util | HBM带宽利用率 | NPU卡HBM带宽利用率(旧版指标) | % | 不涉及 | 0~100% |
| 4 | npu_util_rate_hbm_bw | HBM带宽利用率 | NPU卡HBM带宽利用率(新版指标) | % | 不涉及 | 0~100% | |
| 5 | AI Core | npu_util_rate_ai_core | NPU卡AI核心使用率 | NPU卡的AI核心使用率 | % | 不涉及 | 0~100% |
| 6 | / | mem_usedPercent | 内存使用率 | 该指标用于统计测量对象的内存使用率。 采集方式(Linux):通过/proc/meminfo文件获取,(MemTotal-MemAvailable)/MemTotal 若/proc/meminfo中显示MemAvailable,则MemUsedPercent=(MemTotal-MemAvailable)/MemTotal 若/proc/meminfo中不显示MemAvailable,则MemUsedPercent=(MemTotal-MemFree-Buffers-Cached)/MemTotal 采集方式(Windows):计算方法为( 已用内存量/内存总量*100%)。 | % | 不涉及 | 0~100% |
告警配置
通过对接CES,可以将业务中的重要事件或对云资源的操作事件收集到CES云监控服务,并在事件发生时进行告警。主要支持的事件列表可以在轻量算力节点支持的事件列表中查看。