更新时间:2025-08-14 GMT+08:00
分享

指标监控插件(ModelArts Metrics Collector)

插件简介

指标监控插件(ModelArts Metrics Collector)是默认内置插件,以节点守护程序运行,可采集节点及各类作业监控指标,并上报到AOM。指标列表请见使用AOM查看Lite Cluster监控指标

图1 ModelArts指标监控插件

约束与限制

  • 创建资源池时自动安装。不支持卸载。
  • 存量资源池,需要将节点故障检测(ModelArts Node Agent)插件版本升级到最新版本,自动安装该插件。
  • 在插件升级期间,指标采集pod重启,可能存在短暂指标不上报,请谨慎执行升级操作。

组件说明

容器组件

说明

资源类型

modelarts-metric-collector

节点、容器指标采集

DaemonSet

参数说明

参数

说明

备机上报

专属池备机是否上报指标,默认false不上报。

开启exporter

支持使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。关闭后,将无法使用Prometheus等第三方监控系统采集指标。默认开启。

专属池:使用推理作业指标扩缩容,需开启。

上报至AOM自定义Prometheus 通用实例

指标默认上报到AOM平台的Prometheus_AOM_Default实例。

开启时,监控指标上报至自定义Prometheus通用实例,如图2所示。关闭后,则上报至Default默认Prometheus实例,即Prometheus_AOM_Default实例,如图图3所示。

图2 自定义通用Prometheus实例
图3 Prometheus_AOM_Default实例

相关文档