更新时间:2025-06-06 GMT+08:00

查看指标

为使用户更好地掌握Ray集群资源的使用情况,云服务平台将指标上报到了应用运维管理AOM,用户可以通过应用运维管理AOM查询资源使用情况。

前提条件

  • 已有可正常使用的华为云账号。
  • 已有至少一个正常可用的工作空间。
  • 已有至少一个Ray集群。

操作步骤

  1. 登录应用运维管理平台。
  2. 在左侧导航栏选择“指标预览”,指标源选择Prometheus_AOM_Default。
  3. 全量指标中输入指标名称进行查询。

    表1 监控指标

    指标名称

    描述

    fabric_dpu_cpu_usage

    该指标用于统计Ray集群head和worker的cpu资源使用率。

    单位:百分比。

    fabric_dpu_mem_usage

    该指标用于统计Ray集群head和worker的内存资源使用率。

    单位:百分比。