监控AI DataLake计算资源池
在日常运维工作中,管理员需要实时掌握计算资源池的运行状态,了解CPU、内存、NPU、GPU 等资源的实际使用情况。
通过可视化监控,管理员可以:
- 直观了解资源池中各类资源的实时使用情况。
- 判断是否需要进行资源池的扩缩容操作。
- 优化资源管理,避免资源浪费或不足。
- 保障业务稳定,及时发现资源瓶颈。
查看资源池监控
- 登录AI DataLake管理控制台。
- 在左侧导航栏单击“运维监控 > 资源池监控”。
- 在资源池监控页面中,可查看当前工作空间下,资源池的资源使用信息。
图1 查看资源池监控
表1 资源池监控指标 指标名称
单位
描述
资源池CPU使用率
百分比
当前计算资源池中所有计算节点的CPU资源被实际占用的比例,反映了资源池处理通用计算任务的负载情况。
资源池内存使用率
百分比
当前计算资源池中所有计算节点的内存资源被实际占用的比例。内存是影响数据处理任务性能的关键因素,尤其对于大数据分析、内存计算等场景至关重要。
资源池NPU使用率
百分比
当前计算资源池中NPU加速器的使用比例,NPU专门用于加速深度学习推理和训练任务。
资源池GPU使用率
百分比
当前计算资源池中GPU加速器的使用比例。GPU凭借其强大的并行计算能力,广泛应用于深度学习、科学计算、图形渲染等领域。
- 运维人员可以通过配置监控参数来查看计算资源池的实时运行状态,系统提供了灵活的监控配置选项,支持自定义监控数据统计周期、选择特定资源池以及调整页面刷新频率,满足不同场景下的监控需求。设置监控数据统计周期后,在界面右上角可选择“按分钟”、“按小时”或者“按天”的维度查看图表,图表数据会按照所选聚合粒度计算平均值呈现。
- 监控数据统计周期为近1小时/6小时,监控图表内的数据周期最小为1分钟。
- 监控数据统计周期为近1天/7天,监控图表内的数据周期最小为1小时,图表不支持按分钟呈现。
- 监控数据统计周期为近30天,监控图表内的数据周期最小为1天,图表不支持按分钟或者按小时呈现。
- 自定义监控数据统计周期最大选择30天,超过1天时监控图表内的数据周期最小为1小时,超过7天时监控图表内的数据周期最小为1天。