NPU指标说明
当CCE AI套件(ASCEND NPU)插件版本为2.1.55及以上时,支持使用npu-exporter组件。npu-exporter是一个用于监控和收集昇腾AI处理器相关指标的组件,可以获取并上报昇腾AI芯片的各种运行时数据,包括昇腾AI处理器的数量、网口实时接收速率等,这些数据统称为NPU指标。通过监控NPU指标,您可以实时掌握NPU的运行状态,及时发现并解决潜在问题,确保NPU高效稳定运行。本文将对npu-exporter组件上报的NPU指标进行详细说明。
计费说明
NPU指标属于自定义指标,若需上报至AOM,将会涉及一定收费,具体计费说明请参见价格详情。
适用的NPU节点
目前,仅支持对AI加速型节点的NPU指标进行监控与采集。
NPU指标
npu-exporter共支持采集73个NPU指标,本文仅介绍AI加速型节点支持的常用指标,具体请参见表2 NPU指标。更多指标信息,请参见昇腾MindX DL官方文档。官方文档中,不同产品形态支持的NPU指标不同,CCE Standard/Turbo集群中节点对应产品形态如下:
- 当节点内NPU卡为Snt3(可登录节点,通过npu-smi info命令查询)时,请关注产品形态为“推理服务器(插Atlas 300I 推理卡)”所支持的NPU指标。
- 当节点内NPU卡为Snt3P(可登录节点,通过npu-smi info命令查询)时,请关注产品形态为“Atlas推理系列产品”所支持的NPU指标。
类别 | 指标名称 | 指标说明 | 指标标签字段 | 标签字段类型 |
|---|---|---|---|---|
NPU | npu_chip_info_name | 表示昇腾AI处理器的名称和ID。 | container_name:容器名称 | String |
id:NPU的ID | String | |||
model_name:昇腾AI处理器的名称 | String | |||
namespace:命名空间的名称 | String | |||
pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
pod_name:Pod名称 | String | |||
vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
npu_chip_info_health_status | 表示昇腾AI处理器的健康状态,取值范围为0或1:
| container_name:容器名称 | String | |
id:NPU的ID | String | |||
model_name:昇腾AI处理器的名称 | String | |||
namespace:命名空间的名称 | String | |||
pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
pod_name:Pod名称 | String | |||
vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
npu_chip_info_power | 表示昇腾AI处理器功耗,单位为瓦特(W)。 说明: 当节点内NPU为Snt3P时,该指标表示板卡功耗,NPU为Snt3时表示昇腾AI处理器功耗。 | container_name:容器名称 | String | |
id:NPU的ID | String | |||
model_name:昇腾AI处理器的名称 | String | |||
namespace:命名空间的名称 | String | |||
pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
pod_name:Pod名称 | String | |||
vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
npu_chip_info_temperature | 表示昇腾AI处理器温度,单位为摄氏度(℃)。 | container_name:容器名称 | String | |
id:NPU的ID | String | |||
model_name:昇腾AI处理器的名称 | String | |||
namespace:命名空间的名称 | String | |||
pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
pod_name:Pod名称 | String | |||
vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
npu_chip_info_utilization | 表示昇腾AI处理器AI Core利用率,单位为%。 | container_name:容器名称 | String | |
id:NPU的ID | String | |||
model_name:昇腾AI处理器的名称 | String | |||
namespace:命名空间的名称 | String | |||
pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
pod_name:Pod名称 | String | |||
vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
npu_chip_info_vector_utilization | 昇腾AI处理器AI Vector利用率 | container_name:容器名称 | String | |
id:NPU的ID | String | |||
model_name:昇腾AI处理器的名称 | String | |||
namespace:命名空间的名称 | String | |||
pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
pod_name:Pod名称 | String | |||
vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
DDR | npu_chip_info_used_memory | 表示昇腾AI处理器DDR内存已使用量,单位为MB。 | container_name:容器名称 | String |
id:NPU的ID | String | |||
model_name:昇腾AI处理器的名称 | String | |||
namespace:命名空间的名称 | String | |||
pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
pod_name:Pod名称 | String | |||
vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
npu_chip_info_total_memory | 表示昇腾AI处理器DDR内存总量,单位为MB。 | container_name:容器名称 | String | |
id:NPU的ID | String | |||
model_name:昇腾AI处理器的名称 | String | |||
namespace:命名空间的名称 | String | |||
pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
pod_name:Pod名称 | String | |||
vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String |
相关链接
您可以通过npu-exporter监控上述NPU指标,具体请参见实现NPU指标的全面监控。

