更新时间:2024-04-30 GMT+08:00

查看资源池详情

资源池详情页介绍

  • 登录ModelArts管理控制台,在左侧导航栏中选择“专属资源池 > 弹性集群”,默认进入“资源池”列表。
  • 单击表头的标记,ModelArts支持根据资源池类型、状态筛选资源池。在列表右上角选择“名称”/“资源ID”,支持根据名称、资源ID进行筛选(在“费用中心 > 订单管理 > 我的订单”页面,单击对应订单的“详情”,可在资源信息中查看资源ID)。
  • 在资源池列表中,单击某一资源池名称,进入资源池详情页,查看资源池的基本信息和其他扩展信息。
    • 当创建了多个资源池时,可在详情页单击左上角,可切换资源池。单击右上角“更多”,可进行扩缩容、删除、设置续费策略、调整到期策略、设置作业类型、退订、驱动升级等操作,不同资源池可进行的操作不一致,具体以控制台显示为准。
    • 在“基本信息”的“网络”中,可单击关联的资源池中的数字,查看关联的资源池。
    • 在扩展信息中可以查看监控、作业、节点、规格、事件,详细介绍见下文。

查看资源池中的作业

在资源池详情页,切换到“作业”页签。您可以查看该资源池中运行的所有作业,如果当前有作业正在排队,可以查看作业在资源池排队的位置。

当前仅支持查看训练作业。

图1 查看资源池作业

查看资源池事件

在资源池详情页,切换到“事件”页签。您可以查看资源从创建到添加节点的各个阶段的事件。产生事件的原因主要有“资源池状态变化”和“资源节点状态变化”。

在事件列表中,可单击“事件类型”列的筛选查看。

  • 当资源池开始创建或者出现异常时,因资源池状态变化,会将此变化信息记录到事件中。
  • 当节点的可用、异常、创建中、删除中的数量发生变化时,因资源池节点状态变化,会将此变化信息记录到事件中。
图2 查看资源池事件

查看资源池节点

在资源池详情页,切换到“节点”页签。您可以查看资源池中所有的节点,并且能查看每个节点资源占用的情况。

由于集群组件会占用一部分资源,所以列表中CPU(可用/总数)呈现的资源数量不代表该节点物理资源数量,仅表示可被业务使用到的资源量。其中,CPU核数为微核,1000微核=1物理核。

  • 替换节点:

    “节点”页签中提供对单个节点替换的功能。可单击操作列的“替换”,即可实现对单个节点的替换。替换节点操作不会收取费用。

    单击“操作记录”可查看当前资源池替换节点的操作记录。“运行中”表示节点在替换中。替换成功后,节点列表中会显示新的节点名称。

    替换最长时间为24小时,超时后仍然未找到合适的资源,状态会变为“失败”。可将鼠标悬浮在图标上,查看具体失败原因。

    • 每天累计替换的次数不超过资源池节点总数的20%,同时替换的节点数不超过资源池节点总数的5%。
    • 替换节点时需确保有空闲节点资源,否则替换可能失败。
    • 当操作记录里有节点处于重置中时,该资源池无法进行替换节点操作。
  • 重置节点

    “节点”页签中提供节点重置的功能。单击操作列的“重置”,可实现对单个节点的重置。勾选多个节点的复选框,单击操作记录旁的“重置”按钮,可实现对多个节点的重置。

    下发重置节点任务时需要填写以下参数:

    表1 重置参数说明

    参数名称

    说明

    操作系统

    选择下拉框中支持的操作系统。

    配置方式

    选择重置节点的配置方式。

    • 按节点比例:重置任务包含多个节点时,同时被重置节点的最高比例。
    • 按节点数量:重置任务包含多个节点时,同时被重置节点的最大个数。

    单击“操作记录”可查看当前资源池重置节点的操作记录。重置中节点状态为“重置中”,重置成功后,节点状态变为“可用”。重置节点操作不会收取费用。

    图3 重置节点
    • 重置节点将影响相关业务的运行,请谨慎操作。
    • 节点状态为“可用”的节点才能进行重置。
    • 同一时间单个节点只能处于一个重置任务中,无法对同一个节点同时下发多个重置任务。
    • 当操作记录里有节点处于替换中时,该资源池无法进行重置节点操作。
    • 当资源池处于驱动升级状态时,该资源池无法进行重置节点操作。
    • GPU和NPU规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。
    图4 查看资源池节点
    图5 操作记录
  • 删除/退订/释放节点:
    • 若是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。

      若想批量删除节点,勾选待删除节点名称前的复选框,然后单击名称上方的“删除”,即可实现对多个节点的资源释放。

    • 若是“包年/包月”且资源未到期的资源池,您可单击操作列的“退订”,即可实现对单个节点的资源释放。
    • 若是“包年/包月”且资源到期的资源池(处于宽限期),您可单击操作列的“释放”,即可实现对单个节点的资源释放。

    部分“包年/包月”节点会出现“删除”按钮,原因是该节点为存量节点,单击“删除”即可实现节点的资源释放。

    • 删除/退订/释放节点可能导致该节点上运行的作业失败,请保证该节点无任务运行时再进行操作。
    • 当资源池中存在异常节点时,可通过删除/退订/释放操作,将资源池中指定的异常节点移除,再通过扩容专属资源池获得和之前相同的总节点个数。
    • 仅有一个节点时,无法进行删除/退订/释放操作。

查看资源池规格

在资源池详情页,切换到“规格”页签。您可以查看该资源池使用的资源规格以及该规格对应的数量。

图6 查看资源池规格(若创建资源池时未设置容器引擎大小,则显示默认值)

查看资源池监控

在资源池详情页,切换到“监控”页签。展示了CPU使用量、内存利用率、磁盘可用容量等使用情况,均以资源池的维度呈现。当资源池中有AI加速卡时,还会显示GPU、NPU的相关监控信息。

图7 查看资源视图

查看标签

通过给资源池添加标签,可以标识云资源,便于快速搜索资源池。

在资源池详情页,切换到“标签”页签。您可以查看、添加、修改、删除资源池的标签信息。标签详细用法请参见ModelArts如何通过标签实现资源分组管理

图8 标签

最多支持添加20个标签。