指标监控插件(ModelArts Metric Collector)
插件简介
指标监控插件(Metrics Collector)是默认内置插件,以节点守护程序运行,可采集节点及各类作业监控指标,并上报到AOM。指标列表请见在AOM控制台查看ModelArts所有监控指标。

约束与限制
- 创建资源池时自动安装。不支持卸载。
- 存量资源池,需要将节点故障检测(ModelArts Node Agent)插件版本升级到最新版本,自动安装该插件。
- 在插件升级期间,指标采集pod重启,可能存在短暂指标不上报,请谨慎执行升级操作。
组件说明
容器组件 |
说明 |
资源类型 |
---|---|---|
modelarts-metric-collector |
节点、容器指标采集 |
DaemonSet |
参数说明
参数 |
说明 |
---|---|
备机上报 |
专属池备机是否上报指标,默认false不上报。 |
开启exporter |
支持使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。关闭后,将无法使用Prometheus等第三方监控系统采集指标。默认开启。 专属池:使用推理作业指标扩缩容,需开启。 |
上报至AOM自定义Prometheus 通用实例 |
指标默认上报到AOM平台的Prometheus_AOM_Default实例。 开启时,监控指标上报至自定义Prometheus通用实例,如图2所示。关闭后,则上报至Default默认Prometheus实例,即Prometheus_AOM_Default实例,如图图3所示。 |