查看Aura端点的资源及作业监控信息
在日常运维工作中,管理员需要实时掌握Aura端点所绑定的计算资源池的资源及内存使用情况,了解CPU、内存、NPU、GPU等资源的实际使用情况及运行的作业完成、失败、排队、取消等数量详情。
通过可视化监控,管理员可以:
- 直观了解资源池中各类资源的实时使用情况。
- 直观了解端点运行的作业信息。
- 判断是否需要进行资源池的扩缩容操作。
- 判断是否需要取消作业运行。
- 优化资源管理,避免资源浪费或不足。
- 保障业务稳定,及时发现资源瓶颈。
约束与限制
该功能仅v1.0版本的Aura端点支持。
查看Aura端点监控信息
- 登录AI DataLake管理控制台。
- 在页面左上角切换至对应的工作空间。
- 在左侧导航栏选择“引擎管理 > 多模数据引擎Aura”,在端点列表中单击运行作业的端点名称进入概览页面。
- 选择“监控”页签,即可查看端口的资源使用及作业运行信息。
表1 Aura端点监控指标 分类
指标名称
单位
描述
资源监控
CPU资源分配量&实际使用率
- CPU资源分配量:vCPUs
- CPU实际使用率:百分比
CPU资源分配量即为当前端点所分配的预留资源和弹性资源数量,单位为vCPUs。
CPU实际使用率即为当前端点CPU资源被实际占用的比例,反映了端点处理Job作业的负载情况。
内存资源分配量&实际使用率
- 内存资源分配量:GiB
- 内存实际使用率:百分比
内存资源分配量即为当前端点所分配的预留资源和弹性资源内存数量,单位为GiB。
内存实际使用率即为当前端点内存资源被实际占用的比例。内存是影响数据处理任务性能的关键因素,尤其对于大数据分析、内存计算等场景至关重要。
GPU资源分配量&实际使用率
- GPU资源分配量:卡
- GPU实际使用率:百分比
GPU资源分配量即为当前端点所分配的预留资源和弹性资源的Worker总卡数,单位为卡。
GPU实际使用率即为当前端点GPU卡数被实际占用的比例。
NPU资源分配量&实际使用率
- NPU资源分配量:卡
- NPU实际使用率:百分比
NPU资源分配量即为当前端点所分配的预留资源和弹性资源的Worker总卡数,单位为卡。
NPU实际使用率即为当前端点NPU卡数被实际占用的比例。
端点作业监控
完成作业数
Count
当前端点已运行完成的作业数统计,并计算出作业数最大值、最小值、平均值和求和值。
作业失败数
Count
当前端点运行失败的作业数统计,并计算出作业数最大值、最小值、平均值和求和值。
排队中作业数
Count
当前端点中正在排队运行的作业数统计,并计算出作业数最大值、最小值、平均值和求和值。
取消作业数
Count
当前端点已取消运行的作业数统计,并计算出作业数最大值、最小值、平均值和求和值。
作业运行平均时长统计
ms
当前端中运行成功的作业的时长统计,并计算出运行时长最大值、最小值、平均值和求和值。
- 运维人员可以通过配置监控参数来查看端点资源及作业的实时运行状态,系统提供了灵活的监控配置选项,支持自定义监控数据统计周期、调整页面刷新频率,满足不同场景下的监控需求。设置监控数据统计周期后,在界面右上角可选择“按分钟”、“按小时”或者“按天”的维度查看图表,图表数据会按照所选聚合粒度计算平均值呈现。
- 监控数据统计周期为近1小时/6小时,监控图表内的数据周期最小为1分钟。
- 监控数据统计周期为近1天/7天,监控图表内的数据周期最小为1小时,图表不支持按分钟呈现。
- 监控数据统计周期为近30天,监控图表内的数据周期最小为1天,图表不支持按分钟或者按小时呈现。
- 自定义监控数据统计周期最大选择30天,超过1天时监控图表内的数据周期最小为1小时,超过7天时监控图表内的数据周期最小为1天。