指标监控插件(ModelArts Metric Collector)
插件简介
指标监控插件(Metrics Collector)是默认内置插件,以节点守护程序运行,可采集节点及各类作业监控指标,并上报到AOM。指标列表请见在AOM控制台查看ModelArts所有监控指标。
约束与限制
- 创建资源池时自动安装。不支持卸载。
- 存量资源池,需要将节点故障检测(ModelArts Node Agent)插件版本升级到最新版本,自动安装该插件。
- 在插件升级期间,指标采集pod重启,可能存在短暂指标不上报,请谨慎执行升级操作。
组件说明
| 容器组件 | 说明 | 资源类型 |
|---|---|---|
| modelarts-metric-collector | 节点、容器指标采集 | DaemonSet |
参数说明
| 参数 | 说明 |
|---|---|
| 备机上报 | 专属池备机是否上报指标,默认false不上报。 |
| 开启exporter | 支持使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。关闭后,将无法使用Prometheus等第三方监控系统采集指标。默认开启。 专属池:使用推理作业指标扩缩容,需开启。 |
| 上报至AOM自定义Prometheus 通用实例 | 指标默认上报到AOM平台的Prometheus_AOM_Default实例。 开启时,监控指标上报至自定义Prometheus通用实例,如图2所示。关闭后,则上报至Default默认Prometheus实例,即Prometheus_AOM_Default实例,如图图3所示。 |
| 配套组件 | 发布版本 |
|---|---|
| metrics-collector | 7.5.0 |
| 7.3.1 | |
| 7.3.0 |

