配置监控告警(可选)
监控配置
使用CES监控NPU资源
Lite Server的监控能力依赖于CES云监控服务,监控需要的Agent插件已经默认安装,申请的NPU资源可以在云监控服务查看到对应监控信息。具体操作请参考Lite Server资源监控。
  重点关注的指标
常用的监控指标如下表所示,全量支持的监控指标请参考文档Lite Server监控指标介绍。
| 
        序号  | 
      
        分类  | 
      
        指标名称  | 
      
        显示名  | 
      
        说明  | 
      
        单位  | 
      
        进制  | 
      
        取值范围  | 
     
|---|---|---|---|---|---|---|---|
| 
        1  | 
      
        DDR  | 
      
        npu_util_rate_mem  | 
      
        NPU显存使用率  | 
      
        NPU卡的显存使用率  | 
      
        %  | 
      
        不涉及  | 
      
        0~100%  | 
     
| 
        2  | 
      
        npu_util_rate_mem_bandwidth  | 
      
        NPU显存带宽使用率  | 
      
        NPU卡的显存带宽使用率  | 
      
        %  | 
      
        不涉及  | 
      
        0~100%  | 
     |
| 
        3  | 
      
        HBM  | 
      
        npu_hbm_bandwidth_util  | 
      
        HBM带宽利用率  | 
      
        NPU卡HBM带宽利用率  | 
      
        %  | 
      
        不涉及  | 
      
        0~100%  | 
     
| 
        4  | 
      
        npu_util_rate_hbm_bw  | 
      
        HBM带宽利用率  | 
      
        NPU卡HBM带宽利用率  | 
      
        %  | 
      
        不涉及  | 
      
        0~100%  | 
     |
| 
        5  | 
      
        AI Core  | 
      
        npu_util_rate_ai_core  | 
      
        NPU卡AI核心使用率  | 
      
        NPU卡的AI核心使用率  | 
      
        %  | 
      
        不涉及  | 
      
        0~100%  | 
     
| 
        6  | 
      
        /  | 
      
        mem_usedPercent  | 
      
        内存使用率  | 
      
        该指标用于统计测量对象的内存使用率。 采集方式(Linux):通过/proc/meminfo文件获取,(MemTotal-MemAvailable)/MemTotal 若/proc/meminfo中显示MemAvailable,则MemUsedPercent=(MemTotal-MemAvailable)/MemTotal 若/proc/meminfo中不显示MemAvailable,则MemUsedPercent=(MemTotal-MemFree-Buffers-Cached)/MemTotal 采集方式(Windows):计算方法为( 已用内存量/内存总量*100%)。  | 
      
        %  | 
      
        不涉及  | 
      
        0~100%  | 
     
告警配置
通过对接CES,可以将业务中的重要事件或对云资源的操作事件收集到CES云监控服务,并在事件发生时进行告警。主要支持的事件列表可以在Lite Server支持的事件列表中查看。