更新时间:2025-07-18 GMT+08:00

NPU指标说明

当CCE AI套件(ASCEND NPU)插件版本为2.1.55及以上时,支持使用npu-exporter组件。npu-exporter是一个用于监控和收集昇腾AI处理器相关指标的组件,可以获取并上报昇腾AI芯片的各种运行时数据,包括昇腾AI处理器的数量、网口实时接收速率等,这些数据统称为NPU指标。通过监控NPU指标,您可以实时掌握NPU的运行状态,及时发现并解决潜在问题,确保NPU高效稳定运行。本文将对npu-exporter组件上报的NPU指标进行详细说明。

计费说明

NPU指标属于自定义指标,若需上报至AOM,将会涉及一定收费,具体计费说明请参见价格详情

适用的NPU节点

目前,仅支持对AI加速型节点的NPU指标进行监控与采集。

NPU指标

npu-exporter共支持采集73个NPU指标,本文仅介绍AI加速型节点支持的常用指标,具体请参见表2 NPU指标

表1 NPU指标

类别

指标名称

指标说明

指标标签字段

标签字段类型

NPU

npu_chip_info_name

表示昇腾AI处理器的名称和ID。

container_name:容器名称

String

id:NPU的ID

String

model_name:昇腾AI处理器的名称

String

namespace:命名空间的名称

String

pcie_bus_info:昇腾AI处理器的PCIe信息

String

pod_name:Pod名称

String

vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID

String

npu_chip_info_health_status

表示昇腾AI处理器的健康状态,取值范围为0或1:

  • 0:表示不健康。
  • 1:表示健康。

container_name:容器名称

String

id:NPU的ID

String

model_name:昇腾AI处理器的名称

String

namespace:命名空间的名称

String

pcie_bus_info:昇腾AI处理器的PCIe信息

String

pod_name:Pod名称

String

vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID

String

npu_chip_info_power

表示昇腾AI处理器功耗,单位为瓦特(W)。

说明:

当节点内NPU为Snt3P时,该指标表示板卡功耗,NPU为Snt3时表示昇腾AI处理器功耗。

container_name:容器名称

String

id:NPU的ID

String

model_name:昇腾AI处理器的名称

String

namespace:命名空间的名称

String

pcie_bus_info:昇腾AI处理器的PCIe信息

String

pod_name:Pod名称

String

vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID

String

npu_chip_info_temperature

表示昇腾AI处理器温度,单位为摄氏度(℃)。

container_name:容器名称

String

id:NPU的ID

String

model_name:昇腾AI处理器的名称

String

namespace:命名空间的名称

String

pcie_bus_info:昇腾AI处理器的PCIe信息

String

pod_name:Pod名称

String

vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID

String

npu_chip_info_utilization

表示昇腾AI处理器AI Core利用率,单位为%。

container_name:容器名称

String

id:NPU的ID

String

model_name:昇腾AI处理器的名称

String

namespace:命名空间的名称

String

pcie_bus_info:昇腾AI处理器的PCIe信息

String

pod_name:Pod名称

String

vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID

String

npu_chip_info_vector_utilization

昇腾AI处理器AI Vector利用率

container_name:容器名称

String

id:NPU的ID

String

model_name:昇腾AI处理器的名称

String

namespace:命名空间的名称

String

pcie_bus_info:昇腾AI处理器的PCIe信息

String

pod_name:Pod名称

String

vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID

String

DDR

npu_chip_info_used_memory

表示昇腾AI处理器DDR内存已使用量,单位为MB。

container_name:容器名称

String

id:NPU的ID

String

model_name:昇腾AI处理器的名称

String

namespace:命名空间的名称

String

pcie_bus_info:昇腾AI处理器的PCIe信息

String

pod_name:Pod名称

String

vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID

String

npu_chip_info_total_memory

表示昇腾AI处理器DDR内存总量,单位为MB。

container_name:容器名称

String

id:NPU的ID

String

model_name:昇腾AI处理器的名称

String

namespace:命名空间的名称

String

pcie_bus_info:昇腾AI处理器的PCIe信息

String

pod_name:Pod名称

String

vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID

String

相关链接

您可以通过npu-exporter监控上述NPU指标,具体请参见实现NPU指标的全面监控