配置监控告警(可选)
监控配置
使用CES监控NPU资源
Lite Server的监控能力依赖于CES云监控服务,监控需要的Agent插件已经默认安装,申请的NPU资源可以在云监控服务查看到对应监控信息。

重点关注的指标
常用的监控指标如下表所示,全量支持的监控指标请参考文档Lite Server监控指标介绍。:
序号 |
分类 |
指标名称 |
显示名 |
说明 |
单位 |
进制 |
取值范围 |
---|---|---|---|---|---|---|---|
1 |
DDR |
npu_util_rate_mem |
NPU显存使用率 |
NPU卡的显存使用率 |
% |
不涉及 |
0~100% |
2 |
npu_util_rate_mem_bandwidth |
NPU显存带宽使用率 |
NPU卡的显存带宽使用率 |
% |
不涉及 |
0~100% |
|
3 |
HBM |
npu_hbm_bandwidth_util |
HBM带宽利用率 |
NPU卡HBM带宽利用率 |
% |
不涉及 |
0~100% |
4 |
npu_util_rate_hbm_bw |
HBM带宽利用率 |
NPU卡HBM带宽利用率 |
% |
不涉及 |
0~100% |
|
5 |
AI Core |
npu_util_rate_ai_core |
NPU卡AI核心使用率 |
NPU卡的AI核心使用率 |
% |
不涉及 |
0~100% |
6 |
/ |
mem_usedPercent |
内存使用率 |
该指标用于统计测量对象的内存使用率。 采集方式(Linux):通过/proc/meminfo文件获取,(MemTotal-MemAvailable)/MemTotal 若/proc/meminfo中显示MemAvailable,则MemUsedPercent=(MemTotal-MemAvailable)/MemTotal 若/proc/meminfo中不显示MemAvailable,则MemUsedPercent=(MemTotal-MemFree-Buffers-Cached)/MemTotal 采集方式(Windows):计算方法为( 已用内存量/内存总量*100%)。 |
% |
不涉及 |
0~100% |
告警配置
通过对接CES,可以将业务中的重要事件或对云资源的操作事件收集到CES云监控服务,并在事件发生时进行告警。主要支持的事件列表可以在Lite Server支持的事件列表中查看。