文档首页/ 智能数据湖 AIDataLake/ 用户指南/ 监控AI DataLake计算资源池
更新时间:2026-04-14 GMT+08:00
分享

监控AI DataLake计算资源池

在日常运维工作中,管理员需要实时掌握计算资源池的运行状态,了解CPU、内存、NPU、GPU 等资源的实际使用情况。

通过可视化监控,管理员可以:

  • 直观了解资源池中各类资源的实时使用情况。
  • 判断是否需要进行资源池的扩缩容操作。
  • 优化资源管理,避免资源浪费或不足。
  • 保障业务稳定,及时发现资源瓶颈。

查看资源池监控

  1. 登录AI DataLake管理控制台。
  2. 在左侧导航栏单击“运维监控 > 资源池监控”。
  3. 在资源池监控页面中,可查看当前工作空间下,资源池的资源使用信息。

    图1 查看资源池监控
    表1 资源池监控指标

    指标名称

    单位

    描述

    资源池CPU使用率

    百分比

    当前计算资源池中所有计算节点的CPU资源被实际占用的比例,反映了资源池处理通用计算任务的负载情况。

    资源池内存使用率

    百分比

    当前计算资源池中所有计算节点的内存资源被实际占用的比例。内存是影响数据处理任务性能的关键因素,尤其对于大数据分析、内存计算等场景至关重要。

    资源池NPU使用率

    百分比

    当前计算资源池中NPU加速器的使用比例,NPU专门用于加速深度学习推理和训练任务。

    资源池GPU使用率

    百分比

    当前计算资源池中GPU加速器的使用比例。GPU凭借其强大的并行计算能力,广泛应用于深度学习、科学计算、图形渲染等领域。

  4. 运维人员可以通过配置监控参数来查看计算资源池的实时运行状态,系统提供了灵活的监控配置选项,支持自定义监控数据统计周期、选择特定资源池以及调整页面刷新频率,满足不同场景下的监控需求。设置监控数据统计周期后,在界面右上角可选择“按分钟”、“按小时”或者“按天”的维度查看图表,图表数据会按照所选聚合粒度计算平均值呈现。

    • 监控数据统计周期为近1小时/6小时,监控图表内的数据周期最小为1分钟。
    • 监控数据统计周期为近1天/7天,监控图表内的数据周期最小为1小时,图表不支持按分钟呈现。
    • 监控数据统计周期为近30天,监控图表内的数据周期最小为1天,图表不支持按分钟或者按小时呈现。
    • 自定义监控数据统计周期最大选择30天,超过1天时监控图表内的数据周期最小为1小时,超过7天时监控图表内的数据周期最小为1天。

相关文档