NPU指标说明
当CCE AI套件(ASCEND NPU)插件版本为2.1.55及以上时,支持使用npu-exporter组件。npu-exporter是一个用于监控和收集昇腾AI处理器相关指标的组件,可以获取并上报昇腾AI芯片的各种运行时数据,包括昇腾AI处理器的数量、网口实时接收速率等,这些数据统称为NPU指标。通过监控NPU指标,您可以实时掌握NPU的运行状态,及时发现并解决潜在问题,确保NPU高效稳定运行。本文将对npu-exporter组件上报的NPU指标进行详细说明。
计费说明
NPU指标属于自定义指标,若需上报至AOM,将会涉及一定收费,具体计费说明请参见价格详情。
适用的NPU节点
目前,仅支持对AI加速型节点的NPU指标进行监控与采集。
NPU指标
npu-exporter共支持采集73个NPU指标,本文仅介绍AI加速型节点支持的常用指标,具体请参见表1。
| 类别 | 指标名称 | 指标说明 | 指标标签字段 | 标签字段类型 |
|---|---|---|---|---|
| NPU | npu_chip_info_name | 表示昇腾AI处理器的名称和ID。 | container_name:容器名称 | String |
| id:NPU的ID | String | |||
| model_name:昇腾AI处理器的名称 | String | |||
| namespace:命名空间的名称 | String | |||
| pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
| pod_name:Pod名称 | String | |||
| vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
| npu_chip_info_health_status | 表示昇腾AI处理器的健康状态,取值范围为0或1:
| container_name:容器名称 | String | |
| id:NPU的ID | String | |||
| model_name:昇腾AI处理器的名称 | String | |||
| namespace:命名空间的名称 | String | |||
| pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
| pod_name:Pod名称 | String | |||
| vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
| npu_chip_info_power | 表示昇腾AI处理器功耗,单位为瓦特(W)。 说明: 当节点内NPU为Snt3P时,该指标表示板卡功耗,NPU为Snt3时表示昇腾AI处理器功耗。 | container_name:容器名称 | String | |
| id:NPU的ID | String | |||
| model_name:昇腾AI处理器的名称 | String | |||
| namespace:命名空间的名称 | String | |||
| pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
| pod_name:Pod名称 | String | |||
| vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
| npu_chip_info_temperature | 表示昇腾AI处理器温度,单位为摄氏度(℃)。 | container_name:容器名称 | String | |
| id:NPU的ID | String | |||
| model_name:昇腾AI处理器的名称 | String | |||
| namespace:命名空间的名称 | String | |||
| pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
| pod_name:Pod名称 | String | |||
| vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
| npu_chip_info_utilization | 表示昇腾AI处理器AI Core利用率,单位为%。 | container_name:容器名称 | String | |
| id:NPU的ID | String | |||
| model_name:昇腾AI处理器的名称 | String | |||
| namespace:命名空间的名称 | String | |||
| pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
| pod_name:Pod名称 | String | |||
| vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
| npu_chip_info_vector_utilization | 昇腾AI处理器AI Vector利用率 | container_name:容器名称 | String | |
| id:NPU的ID | String | |||
| model_name:昇腾AI处理器的名称 | String | |||
| namespace:命名空间的名称 | String | |||
| pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
| pod_name:Pod名称 | String | |||
| vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
| DDR | npu_chip_info_used_memory | 表示昇腾AI处理器DDR内存已使用量,单位为MB。 | container_name:容器名称 | String |
| id:NPU的ID | String | |||
| model_name:昇腾AI处理器的名称 | String | |||
| namespace:命名空间的名称 | String | |||
| pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
| pod_name:Pod名称 | String | |||
| vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String | |||
| npu_chip_info_total_memory | 表示昇腾AI处理器DDR内存总量,单位为MB。 | container_name:容器名称 | String | |
| id:NPU的ID | String | |||
| model_name:昇腾AI处理器的名称 | String | |||
| namespace:命名空间的名称 | String | |||
| pcie_bus_info:昇腾AI处理器的PCIe信息 | String | |||
| pod_name:Pod名称 | String | |||
| vdie_id:昇腾AI处理器的唯一标识,可作为NPU的UUID | String |
相关链接
您可以通过npu-exporter监控上述NPU指标,具体请参见实现NPU指标的全面监控。