更新时间:2026-05-22 GMT+08:00
分享

监控AI DataLake计算资源池

在日常运维工作中,管理员需要实时掌握计算资源池的运行状态,了解CPU、内存、NPU、GPU的使用率情况。

通过可视化监控,管理员可以:

  • 直观了解资源池中各类资源的实时使用情况。
  • 判断是否需要进行资源池的扩缩容操作。
  • 优化资源管理,避免资源浪费或不足。
  • 保障业务稳定,及时发现资源瓶颈。

查看资源池监控

  1. 登录AI DataLake管理控制台
  2. 在左侧导航栏,单击“运维监控 > 资源监控”。
  3. 选择“计算资源”页签,在资源池监控页面中,可查看当前工作空间下,资源池的资源使用信息。

    如果当前空间未购买计算资源池,则不显示计算资源监控数据,可以单击“立即购买资源”,并参考购买预留资源池进行创建。

    图1 查看资源池监控
    表1 资源池监控指标

    指标名称

    单位

    描述

    CPU使用率

    百分比

    当前计算资源池中所有计算节点的CPU资源被实际占用的比例,反映了资源池处理通用计算任务的负载情况。

    内存使用率

    百分比

    当前计算资源池中所有计算节点的内存资源被实际占用的比例。内存是影响数据处理任务性能的关键因素,尤其对于大数据分析、内存计算等场景至关重要。

    NPU使用率

    百分比

    当前计算资源池中NPU加速器的使用比例,NPU专门用于加速深度学习推理和训练任务。

    GPU使用率

    百分比

    当前计算资源池中GPU加速器的使用比例。GPU凭借其强大的并行计算能力,广泛应用于深度学习、科学计算、图形渲染等领域。

  4. 您可以通过配置监控参数,查看计算资源池的实时运行状态,满足不同场景下的监控需求。

    • 选择监控数据统计周期:支持近1小时、近6小时、近1天、近7天、近30天,您也可以选择自定义周期,但最长是30天。在界面右上角您可以选择按分钟、按小时或者按天的维度查看图表,图表数据会按照所选聚合粒度计算平均值呈现。
      • 监控数据统计周期为近1小时/6小时,监控图表内的数据周期最小为1分钟。
      • 监控数据统计周期为近1天/7天,监控图表内的数据周期最小为1小时,图表不支持按分钟呈现。
      • 监控数据统计周期为近30天,监控图表内的数据周期最小为1天,图表不支持按分钟或者按小时呈现。
      • 自定义监控数据统计周期最大选择30天,超过1天时监控图表内的数据周期最小为1小时,超过7天时监控图表内的数据周期最小为1天。
    • 选择资源池:选择需要查看的资源池。
    • 选择页面刷新频率:可按需选择手动刷新、1分钟和5分钟。

相关文档