NPU指标说明
当CCE AI套件(ASCEND NPU)插件版本为2.1.55及以上时,支持使用npu-exporter组件。npu-exporter是一个用于监控和收集昇腾AI处理器相关指标的组件,可以获取并上报昇腾AI芯片的各种运行时数据,包括昇腾AI处理器的数量、网口实时接收速率等,这些数据统称为NPU指标。通过监控NPU指标,您可以实时掌握NPU的运行状态,及时发现并解决潜在问题,确保NPU高效稳定运行。本文将对npu-exporter组件上报的NPU指标进行详细说明。
计费说明
NPU指标属于自定义指标,若需上报至AOM,将会涉及一定收费,具体计费说明请参见价格详情。
适用的NPU节点
目前,仅支持对AI加速型节点的NPU指标进行监控与采集。
NPU指标
npu-exporter共支持采集73个NPU指标,本文仅介绍AI加速型节点支持的常用指标,具体请参见表2 NPU指标。更多指标信息,请参见昇腾MindX DL官方文档。官方文档中,不同产品形态支持的NPU指标不同,CCE Standard/Turbo集群中节点对应产品形态如下:
- 当节点内NPU卡为Snt3(可登录节点,通过npu-smi info命令查询)时,请关注产品形态为“推理服务器(插Atlas 300I 推理卡)”所支持的NPU指标。
 - 当节点内NPU卡为Snt3P(可登录节点,通过npu-smi info命令查询)时,请关注产品形态为“Atlas推理系列产品”所支持的NPU指标。
 
| 
         类别  | 
       
         指标名称  | 
       
         指标说明  | 
       
         指标标签字段  | 
       
         标签字段类型  | 
      
|---|---|---|---|---|
| 
         NPU  | 
       
         npu_chip_info_name  | 
       
         表示昇腾AI处理器的名称和ID。  | 
       
         container_name:容器名称  | 
       
         String  | 
      
| 
         id:NPU的ID  | 
       
         String  | 
      |||
| 
         model_name:昇腾AI处理器的名称  | 
       
         String  | 
      |||
| 
         namespace:命名空间的名称  | 
       
         String  | 
      |||
| 
         pcie_bus_info:昇腾AI处理器的PCIe信息  | 
       
         String  | 
      |||
| 
         pod_name:Pod名称  | 
       
         String  | 
      |||
| 
         vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID  | 
       
         String  | 
      |||
| 
         npu_chip_info_health_status  | 
       
         表示昇腾AI处理器的健康状态,取值范围为0或1: 
  | 
       
         container_name:容器名称  | 
       
         String  | 
      |
| 
         id:NPU的ID  | 
       
         String  | 
      |||
| 
         model_name:昇腾AI处理器的名称  | 
       
         String  | 
      |||
| 
         namespace:命名空间的名称  | 
       
         String  | 
      |||
| 
         pcie_bus_info:昇腾AI处理器的PCIe信息  | 
       
         String  | 
      |||
| 
         pod_name:Pod名称  | 
       
         String  | 
      |||
| 
         vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID  | 
       
         String  | 
      |||
| 
         npu_chip_info_power  | 
       
         表示昇腾AI处理器功耗,单位为瓦特(W)。 
          说明: 
          当节点内NPU为Snt3P时,该指标表示板卡功耗,NPU为Snt3时表示昇腾AI处理器功耗。  | 
       
         container_name:容器名称  | 
       
         String  | 
      |
| 
         id:NPU的ID  | 
       
         String  | 
      |||
| 
         model_name:昇腾AI处理器的名称  | 
       
         String  | 
      |||
| 
         namespace:命名空间的名称  | 
       
         String  | 
      |||
| 
         pcie_bus_info:昇腾AI处理器的PCIe信息  | 
       
         String  | 
      |||
| 
         pod_name:Pod名称  | 
       
         String  | 
      |||
| 
         vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID  | 
       
         String  | 
      |||
| 
         npu_chip_info_temperature  | 
       
         表示昇腾AI处理器温度,单位为摄氏度(℃)。  | 
       
         container_name:容器名称  | 
       
         String  | 
      |
| 
         id:NPU的ID  | 
       
         String  | 
      |||
| 
         model_name:昇腾AI处理器的名称  | 
       
         String  | 
      |||
| 
         namespace:命名空间的名称  | 
       
         String  | 
      |||
| 
         pcie_bus_info:昇腾AI处理器的PCIe信息  | 
       
         String  | 
      |||
| 
         pod_name:Pod名称  | 
       
         String  | 
      |||
| 
         vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID  | 
       
         String  | 
      |||
| 
         npu_chip_info_utilization  | 
       
         表示昇腾AI处理器AI Core利用率,单位为%。  | 
       
         container_name:容器名称  | 
       
         String  | 
      |
| 
         id:NPU的ID  | 
       
         String  | 
      |||
| 
         model_name:昇腾AI处理器的名称  | 
       
         String  | 
      |||
| 
         namespace:命名空间的名称  | 
       
         String  | 
      |||
| 
         pcie_bus_info:昇腾AI处理器的PCIe信息  | 
       
         String  | 
      |||
| 
         pod_name:Pod名称  | 
       
         String  | 
      |||
| 
         vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID  | 
       
         String  | 
      |||
| 
         npu_chip_info_vector_utilization  | 
       
         昇腾AI处理器AI Vector利用率  | 
       
         container_name:容器名称  | 
       
         String  | 
      |
| 
         id:NPU的ID  | 
       
         String  | 
      |||
| 
         model_name:昇腾AI处理器的名称  | 
       
         String  | 
      |||
| 
         namespace:命名空间的名称  | 
       
         String  | 
      |||
| 
         pcie_bus_info:昇腾AI处理器的PCIe信息  | 
       
         String  | 
      |||
| 
         pod_name:Pod名称  | 
       
         String  | 
      |||
| 
         vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID  | 
       
         String  | 
      |||
| 
         DDR  | 
       
         npu_chip_info_used_memory  | 
       
         表示昇腾AI处理器DDR内存已使用量,单位为MB。  | 
       
         container_name:容器名称  | 
       
         String  | 
      
| 
         id:NPU的ID  | 
       
         String  | 
      |||
| 
         model_name:昇腾AI处理器的名称  | 
       
         String  | 
      |||
| 
         namespace:命名空间的名称  | 
       
         String  | 
      |||
| 
         pcie_bus_info:昇腾AI处理器的PCIe信息  | 
       
         String  | 
      |||
| 
         pod_name:Pod名称  | 
       
         String  | 
      |||
| 
         vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID  | 
       
         String  | 
      |||
| 
         npu_chip_info_total_memory  | 
       
         表示昇腾AI处理器DDR内存总量,单位为MB。  | 
       
         container_name:容器名称  | 
       
         String  | 
      |
| 
         id:NPU的ID  | 
       
         String  | 
      |||
| 
         model_name:昇腾AI处理器的名称  | 
       
         String  | 
      |||
| 
         namespace:命名空间的名称  | 
       
         String  | 
      |||
| 
         pcie_bus_info:昇腾AI处理器的PCIe信息  | 
       
         String  | 
      |||
| 
         pod_name:Pod名称  | 
       
         String  | 
      |||
| 
         vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID  | 
       
         String  | 
      
相关链接
您可以通过npu-exporter监控上述NPU指标,具体请参见实现NPU指标的全面监控。