更新时间:2024-10-24 GMT+08:00

查看Standard专属资源池详情

资源池详情页介绍

  • 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“资源池”列表。
  • 单击表头的标记,ModelArts支持根据资源池类型、状态筛选资源池。在列表右上角选择“名称”/“资源ID”,支持根据名称、资源ID进行筛选(在“费用中心 > 订单管理 > 我的订单”页面,单击对应订单的“详情”,可在资源信息中查看资源ID)。
  • 在资源池列表中,单击某一资源池名称,进入资源池详情页,查看资源池的基本信息和其他扩展信息。
    • 对于Standard资源池,当创建了多个资源池时,可在详情页单击左上角,可切换资源池。单击右上角“更多”,可进行扩缩容、删除、设置续费策略、调整到期策略、设置作业类型、退订、驱动升级等操作,不同资源池可进行的操作不一致,具体以控制台显示为准。
    • 在“基本信息”的“网络”中,可单击关联的资源池中的数字,查看关联的资源池。
    • 在扩展信息中可以查看监控、作业、节点、规格、事件、标签,详细介绍见下文。

查看资源池中的作业

在资源池详情页,切换到“作业”页签。您可以查看该资源池中运行的所有作业,如果当前有作业正在排队,可以查看作业在资源池排队的位置。

当前仅支持查看训练作业。

图1 查看资源池作业

查看资源池事件

在资源池详情页,切换到“事件”页签。您可以查看资源从创建到添加节点的各个阶段的事件。产生事件的原因主要有“资源池状态变化”和“资源节点状态变化”。

在事件列表中,可单击“事件类型”列的筛选查看。

  • 当资源池开始创建或者出现异常时,因资源池状态变化,会将此变化信息记录到事件中。
  • 当节点的可用、异常、创建中、删除中的数量发生变化时,因资源池节点状态变化,会将此变化信息记录到事件中。
图2 查看资源池事件

查看资源池节点

在资源池详情页,切换到“节点”页签。您可以查看资源池中所有的节点,并且能查看每个节点资源占用的情况。

由于集群组件会占用一部分资源,所以列表中CPU(可用/总数)呈现的资源数量不代表该节点物理资源数量,仅表示可被业务使用到的资源量。其中,CPU核数为微核,1000微核=1物理核。当前支持对节点进行替换、重置等操作,具体介绍请参见修复Standard专属资源池故障节点

查看资源池规格

在资源池详情页,切换到“规格”页签。您可以查看该资源池使用的资源规格以及该规格对应的数量。

图3 查看资源池规格(如果创建资源池时未设置容器引擎大小,则显示默认值)

查看资源池监控

在资源池详情页,切换到“监控”页签。展示了CPU使用量、内存利用率、磁盘可用容量等使用情况,均以资源池的维度呈现。当资源池中有AI加速卡时,还会显示GPU、NPU的相关监控信息。

图4 查看资源视图

表1 监控指标

名称

指标含义

单位

取值范围

CPU使用量

该指标用于统计测量对象的CPU使用率。

百分比(Percent)

0~100%

内存利用率

该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

百分比(Percent)

0~100%

GPU显卡使用量

该指标用于统计测量对象已使用的显存占显存容量的百分比。

百分比(Percent)

0~100%

GPU显存使用量

该指标用于统计测量对象已使用的显存。

兆字节(Megabytes)

≥0

NPU显卡使用量

该指标用于统计测量对象已使用的NPU显存占NPU存储容量的百分比。

百分比(Percent)

0~100%

NPU显存使用量

该指标用于统计测量对象已使用的NPU显存。

≥0

≥0

磁盘可用容量

该指标用于统计测量对象可用的磁盘容量。

≥0

≥0

磁盘容量

该指标用于统计测量对象磁盘总容量。

≥0

≥0

磁盘利用率

该指标用于统计测量对象的磁盘使用率。

百分比(Percent)

0~100%

GPU/NPU碎片数

由于资源调度产生碎片,导致某些卡虽然空闲,但无法被多卡任务所使用。不同卡数的任务,根据已占用卡的分布不同,实际会有不同的碎片情况,且随时间变化,表格中仅表示当前时间的状态。

/

/

查看标签

通过给资源池添加标签,可以标识云资源,便于快速搜索资源池。

在资源池详情页,切换到“标签”页签。您可以查看、添加、修改、删除资源池的标签信息。标签详细用法请参见ModelArts如何通过标签实现资源分组管理

图5 标签

最多支持添加20个标签。