实现NPU指标的全面监控
应用场景
当集群中包含NPU节点时,监控NPU指标可以帮助用户识别性能瓶颈、优化资源利用率、快速定位异常,从而提升系统的整体稳定性和效率。在CCE Standard和Turbo集群中,您可以使用npu-exporter组件将dcmi/hccn tool采集的NPU指标数据上传至云原生监控系统,实现NPU资源的实时监控与告警,从而提升系统的可靠性和性能。npu-exporter组件共支持采集73个NPU指标(如健康状态、功耗、温度等),通过这些指标您可以全面了解NPU状况。关于NPU指标的更多信息,请参见NPU指标说明。
本文将进一步为您介绍如何启用npu-exporter组件以及如何对NPU指标进行实时监控。

前提条件
- 集群中已有AI加速型节点,且已安装24.x及以上的NPU驱动。NPU驱动升级步骤如下:
驱动升级时要求节点上有配套的NPU固件,重新安装驱动将涉及节点重启,建议在安装驱动前排空节点,具体操作请参见节点排水。虚拟机不支持固件升级。
如果驱动升级失败,请查看文档“常见问题 > 模板插件 > NPU驱动升级失败如何解决?”。
- 卸载原有NPU驱动,具体步骤请参见NPU驱动卸载。
- 进入固件与驱动,选择对应产品型号,下载24.x及以上版本的驱动安装包(软件包格式为run)。
- 当节点内NPU卡为Snt3(可登录节点,通过npu-smi info命令查询)时,产品型号请选择Atlas 300I 推理卡(型号:3010)。
- 当节点内NPU卡为Snt3P3(可登录节点,通过npu-smi info命令查询)时,产品型号请选择Atlas 300I Pro 推理卡。
- 下载安装包后,请阅读用户必读了解NPU安装相关限制和要求,并参考安装驱动(适用于.run格式)中的步骤进行安装。
- 集群中已安装CCE AI 套件 (Ascend NPU),且版本在2.1.55及以上,具体安装步骤请参见CCE AI套件(Ascend NPU)。
- 集群中已安装云原生监控插件,且版本在3.12.1及以上,具体安装步骤请参见云原生监控插件。如果您需要将NPU指标上传至AOM,请在云原生监控插件中启用“监控数据上报至AOM服务”。
- 如果您需要通过Grafana创建NPU相关仪表盘,请在集群中提前安装Grafana插件并启用“公网访问”,具体安装步骤请参见安装Grafana。
操作流程
操作步骤 |
步骤说明 |
费用说明 |
---|---|---|
启用npu-exporter组件后,系统可以监控和收集NPU指标数据,并以Prometheus兼容的格式暴露指标数据。 |
不涉及费用。 |
|
默认情况下,npu-exporter暴露的指标不会被云原生监控插件自动采集和上报,需要在安装云原生监控插件之后,前往“配置中心”手动开启相关数据采集功能。 |
不涉及费用。 |
|
可选步骤,如果您需要在AOM中查看NPU指标信息,请查看此步骤。 |
本文采集的NPU指标属于自定义指标,上传至AOM会涉及一定费用,具体请参见价格详情。 |
|
可选步骤,如果您需要通过Grafana仪表盘实时监控NPU性能数据,请查看此步骤。 |
||
可选步骤,如果npu-exporter组件使用完成,可以选择关闭该组件。 |
不涉及费用 |
步骤一:启用npu-exporter组件
npu-exporter组件用于监控和收集NPU指标数据,并以Prometheus兼容的格式暴露指标数据,便于用户通过Prometheus等监控系统对NPU进行监控和告警。当CCE AI套件(Ascend NPU)插件版本为2.1.55及以上时,支持使用npu-exporter组件,配置的具体步骤如下:
- 登录CCE控制台,单击集群名称进入集群“概览”页。在左侧导航栏中选择“插件中心”,在右侧找到CCE AI套件(Ascend NPU)插件,单击“编辑”。
- 在“编辑插件”页面的“指标观测 > 启用npu-exporter组件进行NPU指标观测”中单击
,右下角单击“确定”。此时,插件将以DaemonSet形式在NPU节点上部署npu-exporter组件,从而实现NPU指标观测。
图2 启用npu-exporter组件 - 待插件状态为运行中后,在CCE AI套件(Ascend NPU)插件模块单击“插件详情”,并切换至实例列表。若实例列表中,存在npu-exporter-xxx实例且状态为运行中,则说明npu-exporter组件启用成功。
步骤二:采集NPU指标信息
默认情况下,npu-exporter暴露的指标不会被云原生监控插件自动采集和上报。您需要在安装云原生监控插件之后,前往“配置中心”手动开启相关数据采集功能,具体存在以下两种情形:
- 未开启“系统预置采集”:如果安装云原生插件后暂未在“配置中心”开启“系统预置采集”,则可以在“配置中心”的ServiceMonitor开启npu-exporter数据采集。
- 已开启“系统预置采集”:如果安装云原生监控插件后已在“配置中心”中开启“系统预置采集”,则需要在“系统预置采集”中开启npu-exporter数据采集。
如果您安装云原生插件后暂未在“配置中心”开启“系统预置采集”,请参考本节步骤配置。
- 登录CCE控制台,单击集群名称进入集群。
- 在左侧导航栏中选择“集群 > 配置中心”,切换至“监控运维配置”页签。在“采集配置”中找到“ServiceMonitor”,单击“管理”。
- 在“采集配置”页面中单击搜索栏,选择“名称”,在下拉框中单击“npu-exporter”,并在搜索结果中选择“启用”。
图3 ServiceMonitor
如果您已在“配置中心”启用了“系统预置采集”功能,系统预置的ServiceMonitor和PodMonitor将被删除,导致无法通过ServiceMonitor上报npu-exporter暴露的NPU指标数据。若您需要采集npu-exporter的相关监控数据,请按照以下步骤配置:
- 登录CCE控制台,单击集群名称进入集群。
- 在左侧导航栏单击“集群 > 配置中心”,在右侧切换至“监控运维配置”页签。在“采集配置 > 系统预置采集”中单击“管理”。
- 在“采集配置”页面单击搜索栏,选择任务名称,在下拉框中选择“npu-exporter”。在搜索结果的“指标采集”列选择“采集全量指标”,并选择“启用”。
图4 系统预置采集
步骤三:在AOM中查看NPU指标
如果您需要在AOM中查看NPU指标信息,请确保已在云原生监控插件中开启“监控数据上报至AOM服务”。此处采集的NPU指标属于自定义指标,上传至AOM会涉及一定费用,具体请参见价格详情。
- 进入AOM管理页面,在左侧导航栏单击“实例列表”,在右侧页面选择所上报的AOM实例。
图5 AOM实例
- 进入“指标管理”,在上方“集群”中选择使用的集群名称,在搜索栏输入“NPU”,查看NPU指标。
步骤四:使用Grafana查看NPU指标信息
Grafana仪表盘可实时监控NPU性能数据,并支持灵活配置,帮助您快速发现异常、定位问题,提升运维效率。您可以通过AOM数据源或Prometheus数据源对接Grafana,具体如下:
- 使用AOM数据源:需要在云原生监控插件中启用“监控数据上报至AOM服务”,并在Grafana插件中启用“数据源对接AOM”,同时确保两者选择的AOM实例一致。此时,Grafana将自动生成“prometheus-aom”数据源。
- 使用Prometheus数据源:需要在云原生监控插件中开启“本地存储模式”,此时可直接使用Grafana自带的“prometheus”数据源。
- 测试数据源的连通性。需要保证“prometheus-aom”或“prometheus”数据源与Grafana的连通性,连通性测试通过才可在Grafana中使用相关数据源。
- 在集群左侧导航栏中,单击“集群 > 插件”。在右侧插件列表中,在Grafana插件模块单击“访问”,进入Grafana可视化界面。
- 首次访问Grafana可视化界面,需要输入用户名和密码,默认用户名与密码均为admin。输入用户名和密码后,您可以根据界面提示重置密码。
- 在Grafana可视化界面左上角单击
,单击“Connections”左侧的
,单击“Data sources”,进入“Data sources”界面。
- 在数据源列表中,单击“prometheus-aom”或“prometheus”。在数据源页面底部单击“Save&test”,测试数据源是否连通。若提示“Successfully queried the Prometheus API”,则说明连通测试通过。
图6 连通测试通过
- 官方已提供Ascend NPU Exporter仪表盘,您可以通过该仪表盘查看NPU相关指标数据。进入Grafana dashboards,在搜索栏中搜索ascend-npu-exporter,单击搜索到的仪表盘。ascend-npu-exporter仪表盘页面,在右侧单击“Download JSON”,下载仪表盘的JSON文件。
返回Grafana可视化界面,左上角单击
,打开左侧菜单栏。单击“Dashboards”。在“Dashboards”页面右上角,单击“New”,下拉菜单中单击“Import”。在“Import dashboard”页面上传刚下载的Json文件,并在“Prometheus”中选择“prometheus-aom”或“prometheus”数据源,单击“Import”。
Grafana导入Dashboard的更多方法,请参见Manage dashboards。
图7 导入仪表盘 - 导入完成后,您可以直接看到对应面板。在右上角单击
,即可保存看板。
步骤五:关闭npu-exporter组件
待npu-exporter组件使用完成后,您可以通过以下步骤关闭组件:
- 登录CCE控制台,单击集群名称进入集群“概览”页。在左侧导航栏中选择“插件中心”,在右侧找到CCE AI套件(Ascend NPU)插件,单击“编辑”。
- 在“编辑插件”页面的“指标观测 > 启用npu-exporter组件进行NPU指标观测”中单击
,右下角单击“确定”。
- 待插件状态为运行中后,在CCE AI套件(Ascend NPU)插件模块单击“插件详情”,并切换至实例列表。若实例列表中,npu-exporter-xxx实例消失,则说明npu-exporter组件关闭成功。