更新时间:2025-08-06 GMT+08:00
分享

配置监控告警(可选)

监控配置

使用CES监控NPU资源

Lite Server的监控能力依赖于CES云监控服务,监控需要的Agent插件已经默认安装,申请的NPU资源可以在云监控服务查看到对应监控信息。

图1 查看监控信息

重点关注的指标

常用的监控指标如下表所示,全量支持的监控指标请参考文档Lite Server监控指标介绍。:

表1 常用的监控指标

序号

分类

指标名称

显示名

说明

单位

进制

取值范围

1

DDR

npu_util_rate_mem

NPU显存使用率

NPU卡的显存使用率

%

不涉及

0~100%

2

npu_util_rate_mem_bandwidth

NPU显存带宽使用率

NPU卡的显存带宽使用率

%

不涉及

0~100%

3

HBM

npu_hbm_bandwidth_util

HBM带宽利用率

NPU卡HBM带宽利用率

%

不涉及

0~100%

4

npu_util_rate_hbm_bw

HBM带宽利用率

NPU卡HBM带宽利用率

%

不涉及

0~100%

5

AI Core

npu_util_rate_ai_core

NPU卡AI核心使用率

NPU卡的AI核心使用率

%

不涉及

0~100%

6

/

mem_usedPercent

内存使用率

该指标用于统计测量对象的内存使用率。

采集方式(Linux):通过/proc/meminfo文件获取,(MemTotal-MemAvailable)/MemTotal

若/proc/meminfo中显示MemAvailable,则MemUsedPercent=(MemTotal-MemAvailable)/MemTotal

若/proc/meminfo中不显示MemAvailable,则MemUsedPercent=(MemTotal-MemFree-Buffers-Cached)/MemTotal

采集方式(Windows):计算方法为( 已用内存量/内存总量*100%)。

%

不涉及

0~100%

告警配置

通过对接CES,可以将业务中的重要事件或对云资源的操作事件收集到CES云监控服务,并在事件发生时进行告警。主要支持的事件列表可以在Lite Server支持的事件列表中查看。

相关文档