更新时间:2024-11-22 GMT+08:00

查看Standard专属资源池详情

资源池详情页介绍

  • 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“Standard资源池”列表。
  • 在“Standard资源池”列表页的搜索框中,支持根据资源池的名称、资源池ID、资源池的状态、节点状态、资源池类型、创建时间搜索。
  • 在资源池列表中,单击某一资源池名称,进入资源池详情页,查看资源池的基本信息和其他扩展信息。
    • 对于Standard资源池,当创建了多个资源池时,可在详情页单击左上角,可切换资源池。
    • 对于按需计费的Standard资源池,在详情页中,单击右上角“更多”,可进行扩缩容、删除、转包周期、设置作业类型等操作,不同资源池可进行的操作不一致,具体以控制台显示为准。
    • 对于包年/包月的Standard资源池,在详情页中,单击右上角“更多”,可进行扩容、退订、续费、开通自动续费或修改自动续费、驱动升级、设置作业类型等操作,不同资源池可进行的操作不一致,具体以控制台显示为准。
    • 在“基本信息”的“网络”中,可单击关联的资源池中的数字,查看关联的资源池。可以查看该网络中可用的IP数量。
    • 在扩展信息中可以查看监控、作业、节点、规格、事件、标签,详细介绍见下文。

查看资源池中的作业

在资源池详情页,切换到“作业”页签。您可以查看该资源池中运行的所有作业,如果当前有作业正在排队,可以查看作业在资源池排队的位置。

当前仅支持查看训练作业。

查看资源池事件

在资源池详情页,切换到“事件”页签。您可以查看资源从创建到添加节点的各个阶段的事件。产生事件的原因主要有“资源池状态变化”和“资源节点状态变化”。

在事件列表中,可单击“事件类型”列的筛选查看。

  • 当资源池开始创建或者出现异常时,因资源池状态变化,会将此变化信息记录到事件中。
  • 当节点的可用、异常、创建中、删除中的数量发生变化时,因资源池节点状态变化,会将此变化信息记录到事件中。
图1 查看资源池事件

查看资源池节点

在资源池详情页,切换到“节点”页签。您可以查看资源池中所有的节点,并且能查看每个节点资源占用的情况。当把鼠标放在节点名称上方时,会显示节点名称和资源ID,资源ID可用于查询账单或者在费用中心查询包周期资源的计费信息。

由于集群组件会占用一部分资源,所以列表中CPU(可用/总数)呈现的资源数量不代表该节点物理资源数量,仅表示可被业务使用到的资源量。其中,CPU核数为微核,1000微核=1物理核。

如下图所示,支持对多节点批量进行删除、退订、重启、重置、开启/关闭高可用冗余操作,具体介绍请参见修复Standard专属资源池故障节点。还支持对节点批量添加、编辑、删除资源标签操作,“包年/包月”的节点支持批量续费、批量开通/修改自动续费功能。

图2 节点批量操作

如下图所示,在单个节点的操作列,支持对单个节点进行删除、替换、修复、重置、重启、授权、运行作业列表、开启高可用冗余、关闭高可用冗余等操作,具体介绍请参见修复Standard专属资源池故障节点。还支持编辑资源标签操作。

图3 单个节点操作

在节点的搜索栏,支持通过节点的名称、节点状态、高可用冗余、批次、驱动版本、驱动状态、IP地址、资源标签等关键字搜索节点。

支持导出Standard资源池的节点信息到Excel表格中,方便查阅。勾选节点名称,在节点列表上方单击“导出 > 导出全部数据到XLSX”或者“导出 > 导出部分数据到XLSX”,在浏览器的下载记录中查看导出的Excel表格。

在节点列表页面中,单击设置图标,支持对节点列表中显示的信息进行自定义。

查看资源池规格

在资源池详情页,切换到“规格”页签。您可以查看该资源池使用的资源规格以及该规格对应的数量,并可以调整容器引擎空间大小。

图4 查看资源池规格(如果创建资源池时未设置容器引擎大小,则显示默认值)

查看资源池监控

在资源池详情页,切换到“监控”页签。展示了CPU使用量、内存利用率、磁盘可用容量等使用情况,均以资源池的维度呈现。当资源池中有AI加速卡时,还会显示GPU、NPU的相关监控信息。

图5 查看资源视图
表1 监控指标

名称

指标含义

单位

取值范围

CPU使用率

该指标用于统计测量对象的CPU使用率。

百分比(Percent)

0~100%

内存利用率

该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

百分比(Percent)

0~100%

GPU显卡使用率

该指标用于统计测量对象已使用的显卡占显卡容量的百分比。

百分比(Percent)

0~100%

GPU显存使用率

该指标用于统计测量对象已使用的显存占显存容量的百分比。

百分比(Percent)

0~100%

NPU显卡使用率

该指标用于统计测量对象已使用的显卡占显卡容量的百分比。

百分比(Percent)

0~100%

NPU显存使用率

该指标用于统计测量对象已使用的显存占显存容量的百分比。

百分比(Percent)

0~100%

磁盘可用容量

该指标用于统计测量对象可用的磁盘容量。

MB

≥0

磁盘容量

该指标用于统计测量对象磁盘总容量。

MB

≥0

磁盘利用率

该指标用于统计测量对象的磁盘使用率。

百分比(Percent)

0~100%

GPU/NPU碎片数

由于资源调度产生碎片,导致某些卡虽然空闲,但无法被多卡任务所使用。不同卡数的任务,根据已占用卡的分布不同,实际会有不同的碎片情况,且随时间变化,表格中仅表示当前时间的状态。

/

/

管理资源池标签

通过给资源池添加标签,可以标识云资源,便于快速搜索资源池。

在资源池详情页,切换到“标签”页签。您可以查看、搜索、添加、修改、删除资源池的标签信息。

最多支持添加20个标签。

查看资源池的磁盘规格

在资源池详情页的右上角,单击更多>扩缩容,在资源池扩缩容页面可以查看该资源规格中携带的系统盘、容器盘、数据盘的磁盘类型、大小、数量和写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。