更新时间:2025-06-06 GMT+08:00
查看指标
为使用户更好地掌握Ray集群资源的使用情况,云服务平台将指标上报到了应用运维管理AOM,用户可以通过应用运维管理AOM查询资源使用情况。
前提条件
- 已有可正常使用的华为云账号。
- 已有至少一个正常可用的工作空间。
- 已有至少一个Ray集群。
操作步骤
- 登录应用运维管理平台。
- 在左侧导航栏选择“指标预览”,指标源选择Prometheus_AOM_Default。
- 全量指标中输入指标名称进行查询。
表1 监控指标 指标名称
描述
fabric_dpu_cpu_usage
该指标用于统计Ray集群head和worker的cpu资源使用率。
单位:百分比。
fabric_dpu_mem_usage
该指标用于统计Ray集群head和worker的内存资源使用率。
单位:百分比。
父主题: Ray集群管理