查看Standard专属资源池详情
资源池详情页介绍
- 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“Standard资源池”列表。
- 在“Standard资源池”列表页的搜索框中,支持根据资源池的名称、资源池ID、资源池的状态、节点状态、资源池类型、创建时间搜索。
- 在资源池列表中,单击某一资源池名称,进入资源池详情页,查看资源池的基本信息和其他扩展信息。
- 对于Standard资源池,当创建了多个资源池时,可在详情页单击左上角,可切换资源池。
- 对于按需计费的Standard资源池,在详情页中,单击右上角“更多”,可进行扩缩容、删除、转包周期、设置作业类型等操作,不同资源池可进行的操作不一致,具体以控制台显示为准。
- 对于包年/包月的Standard资源池,在详情页中,单击右上角“更多”,可进行扩容、退订、续费、开通自动续费或修改自动续费、驱动升级、设置作业类型等操作,不同资源池可进行的操作不一致,具体以控制台显示为准。
- 在“基本信息”的“网络”中,可单击关联的资源池中的数字,查看关联的资源池。可以查看该网络中可用的IP数量。
- 在扩展信息中可以查看监控、作业、节点、规格、事件、标签,详细介绍见下文。
查看资源池中的作业
在资源池详情页,切换到“作业”页签。您可以查看该资源池中运行的所有作业,如果当前有作业正在排队,可以查看作业在资源池排队的位置。
当前仅支持查看训练作业。
查看资源池事件
在资源池详情页,切换到“事件”页签。您可以查看资源从创建到添加节点的各个阶段的事件。产生事件的原因主要有“资源池状态变化”和“资源节点状态变化”。
在事件列表中,可单击“事件类型”列的筛选查看。
- 当资源池开始创建或者出现异常时,因资源池状态变化,会将此变化信息记录到事件中。
- 当节点的可用、异常、创建中、删除中的数量发生变化时,因资源池节点状态变化,会将此变化信息记录到事件中。
查看资源池节点
在资源池详情页,切换到“节点”页签。您可以查看资源池中所有的节点,并且能查看每个节点资源占用的情况。当把鼠标放在节点名称上方时,会显示节点名称和资源ID,资源ID可用于查询账单或者在费用中心查询包周期资源的计费信息。
由于集群组件会占用一部分资源,所以列表中CPU(可用/总数)呈现的资源数量不代表该节点物理资源数量,仅表示可被业务使用到的资源量。其中,CPU核数为微核,1000微核=1物理核。
如下图所示,支持对多节点批量进行删除、退订、重启、重置、开启/关闭高可用冗余操作,具体介绍请参见修复Standard专属资源池故障节点。还支持对节点批量添加、编辑、删除资源标签操作,“包年/包月”的节点支持批量续费、批量开通/修改自动续费功能。
如下图所示,在单个节点的操作列,支持对单个节点进行删除、替换、修复、重置、重启、授权、运行作业列表、开启高可用冗余、关闭高可用冗余等操作,具体介绍请参见修复Standard专属资源池故障节点。还支持编辑资源标签操作。
在节点的搜索栏,支持通过节点的名称、节点状态、高可用冗余、批次、驱动版本、驱动状态、IP地址、资源标签等关键字搜索节点。
支持导出Standard资源池的节点信息到Excel表格中,方便查阅。勾选节点名称,在节点列表上方单击“导出 > 导出全部数据到XLSX”或者“导出 > 导出部分数据到XLSX”,在浏览器的下载记录中查看导出的Excel表格。
在节点列表页面中,单击设置图标,支持对节点列表中显示的信息进行自定义。
查看资源池规格
在资源池详情页,切换到“规格”页签。您可以查看该资源池使用的资源规格以及该规格对应的数量,并可以调整容器引擎空间大小。
查看资源池监控
在资源池详情页,切换到“监控”页签。展示了CPU使用量、内存利用率、磁盘可用容量等使用情况,均以资源池的维度呈现。当资源池中有AI加速卡时,还会显示GPU、NPU的相关监控信息。
名称 |
指标含义 |
单位 |
取值范围 |
---|---|---|---|
CPU使用率 |
该指标用于统计测量对象的CPU使用率。 |
百分比(Percent) |
0~100% |
内存利用率 |
该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 |
百分比(Percent) |
0~100% |
GPU显卡使用率 |
该指标用于统计测量对象已使用的显卡占显卡容量的百分比。 |
百分比(Percent) |
0~100% |
GPU显存使用率 |
该指标用于统计测量对象已使用的显存占显存容量的百分比。 |
百分比(Percent) |
0~100% |
NPU显卡使用率 |
该指标用于统计测量对象已使用的显卡占显卡容量的百分比。 |
百分比(Percent) |
0~100% |
NPU显存使用率 |
该指标用于统计测量对象已使用的显存占显存容量的百分比。 |
百分比(Percent) |
0~100% |
磁盘可用容量 |
该指标用于统计测量对象可用的磁盘容量。 |
MB |
≥0 |
磁盘容量 |
该指标用于统计测量对象磁盘总容量。 |
MB |
≥0 |
磁盘利用率 |
该指标用于统计测量对象的磁盘使用率。 |
百分比(Percent) |
0~100% |
GPU/NPU碎片数 |
由于资源调度产生碎片,导致某些卡虽然空闲,但无法被多卡任务所使用。不同卡数的任务,根据已占用卡的分布不同,实际会有不同的碎片情况,且随时间变化,表格中仅表示当前时间的状态。 |
/ |
/ |
管理资源池标签
通过给资源池添加标签,可以标识云资源,便于快速搜索资源池。
在资源池详情页,切换到“标签”页签。您可以查看、搜索、添加、修改、删除资源池的标签信息。
最多支持添加20个标签。
查看资源池的磁盘规格
在资源池详情页的右上角,单击
,在资源池扩缩容页面可以查看该资源规格中携带的系统盘、容器盘、数据盘的磁盘类型、大小、数量和写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。