更新时间:2026-03-13 GMT+08:00
分享

管理专属资源池的资源队列(旧版:逻辑子池)

用户可以在ModelArts专属资源池上拆分出资源队列(旧版:逻辑子池),并设置每个子池的资源配额,包括保障配额和配额上限。拆分出资源队列后,训练、推理和开发环境的任务投递,需要投递在资源队列上,并受资源队列的配额约束,满足配额约束的任务才能被投递运行。

在资源池详情页,切换到“资源队列(旧版:逻辑子池)”页签。在资源队列列表中,您可以单击左上角“创建资源队列”创建资源队列,也可对已创建的资源队列做扩缩容、设置作业类型和删除操作。

如果需要将一个资源队列的资源迁移给另外一个资源队列,可以把其中一个资源队列删掉,然后对另外一个子池进行扩容操作。

创建资源队列(旧版:逻辑子池)

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 专属算力资源 > 资源池”(旧版控制台:“资源管理 > 标准算力集群(或专属资源池)”)
  2. 在资源池列表中,单击某一资源池名称,进入资源池详情页。
  3. 在资源池详情页,切换到“资源队列(旧版:逻辑子池)”页签。在资源队列列表中,您可以单击左上角“创建资源队列”。
    图1 资源队列

  4. 单击“创建资源队列”,在弹窗中填写信息,然后单击“确定”创建资源队列。

    当物理资源池中存在运行中的业务负载,需要先停止业务再创建资源队列。

    创建资源队列后,如果资源队列需要绑定物理池节点,请开启专属资源池节点绑定

    表1 创建资源队列参数说明

    参数

    说明

    名称

    资源队列名称。

    描述

    资源队列的简单描述。

    作业类型

    资源队列支持运行的作业类型,必须是物理专属资源池中支持的作业类型

    实例规格管理

    针对资源队列的实例规格设置如下参数,ModelArts平台会根据所配置的参数进行资源队列的任务调度。

    • 步长:每次调整保障配额时的最小单位。在节点绑定场景下每个步长内的节点将作为一个整体,且属于同一批次。仅超节点和整柜节点才有步长。在超节点场景下,允许创建的资源队列步长比物理池步长小。

      资源队列创建后不可修改步长,请根据需要设置合理步长。

    • 保障配额:资源队列拥有的最小资源量,可以设置为0。
    • 配额上限:资源队列拥有的最大资源量,必须大于等于保障配额,输入值不能小于1。

    当保障配额<配额上限时,即使物理专属资源池支持“开发环境”“作业类型”也不支持选择“开发环境”

    任务调度规则:
    • 所需资源量 ≤ 保障配额的作业可以保障资源占用。
    • 所需资源量 > 保障配额且 ≤ 配额上限的作业,在资源充足时可以调度,资源不足时会被抢占。

扩缩容资源队列(旧版:逻辑子池)

针对已创建的资源队列(旧版:逻辑子池),单击操作列“扩缩容”,在弹窗中重新设置实例规格管理,单击“确定”

图2 扩缩容资源队列(旧版:逻辑子池)

如果是开启节点绑定的资源队列,扩缩容时需要确认是否进行节点排水。节点排水通常指的是清空节点资源以便释放或移除不再需要的节点。

启用节点排水后将会对扩缩容的节点进行排水,仅本次扩缩容操作生效。可前往节点页签查看排水状态,如果排水失败,可将鼠标移至节点状态查看排水失败原因。

排水过程中节点会被设置为不可调度,节点上的作业负载会被驱逐,可能导致作业失败。

设置资源队列(旧版:逻辑子池)作业类型

针对已创建的资源队列(旧版:逻辑子池),单击操作列的“设置作业类型”,在弹窗中设置当前资源队列的作业类型,单击“确定”

更改已设置的作业类型可能会导致: 开发环境实例被删除、正在运行的训练作业失败、正在运行的推理服务失败。

删除资源队列(旧版:逻辑子池)

针对已创建的资源队列,单击操作列的“删除”,在弹窗的输入框中输入DELETE,单击“确定”

开启/关闭专属资源池节点绑定

当资源池下已创建资源队列(旧版:逻辑子池),支持开启节点绑定,为资源队列绑定专属的节点。

开启节点绑定后,系统会自动绑定相应数量的专属节点,任务只能在这些绑定的节点上运行,确保资源专有性和稳定性。主要适用于需要高资源保障和稳定性的任务场景

节点绑定作用如下:

  • 提高任务稳定性:通过绑定特定节点,任务不会因节点动态分配而中断,确保任务的连续性和稳定性。
  • 资源保障:绑定节点后,任务可以独占绑定的节点资源,避免与其他任务竞争资源。
  • 优化资源利用率:通过合理分配节点资源,可以提高整体资源利用率,避免资源浪费。

开启节点绑定

开启节点绑定后,服务后台会为资源队列自动绑定节点。

在资源池列表中,选择某个资源池右侧操作列的> 开启节点绑定”

“开启节点绑定”弹窗中,单击“确定”

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 专属算力资源 > 资源池”(旧版控制台:“资源管理 > 标准算力集群(或专属资源池)”)
  2. 在资源池列表中,选择某个资源池右侧操作列的> 开启节点绑定”
  3. “开启节点绑定”弹窗中,单击“确定”

专属资源池开启节点绑定后,资源池内的节点支持换绑资源队列(旧版:逻辑子池)

关闭节点绑定

关闭节点绑定功能可能会导致原资源队列上的作业被抢占,请谨慎操作。

在资源池列表中,选择某个资源池右侧操作列的> 关闭节点绑定”

  1. “关闭节点绑定”弹窗中,确认信息,并在文本框中输入“YES”,单击“确定”
  2. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 专属算力资源 > 资源池”(旧版控制台:“资源管理 > 标准算力集群(或专属资源池)”)
  3. 在资源池列表中,选择某个资源池右侧操作列的> 关闭节点绑定”
  4. “关闭节点绑定”弹窗中,确认信息,并在文本框中输入“YES”,单击“确定”

换绑资源队列(旧版:逻辑子池)

专属资源池开启节点绑定后,资源池内的节点可换绑指定的资源队列。

  1. 登录ModelArts管理控制台,在左侧菜单栏中选择“资源管理 > 专属算力资源 > 资源池”(旧版控制台:“资源管理 > 标准算力集群(或专属资源池)”)
  2. 在资源池列表中,单击已开启节点绑定的资源池名称,进入资源池详情页。
  3. 切换至“节点”页签,勾选待换绑资源队列的节点,单击上方的“更多 > 换绑资源池”
    图3 换绑资源池

  4. “换绑资源池”弹窗中,设置换绑节点参数,符合参数配置的节点换绑资源队列。
    • 当节点状态处于非稳态(除可用和异常状态以外的状态)时,不可对节点进行换绑操作。
    • 资源队列的驱动版本和节点驱动不匹配时,节点驱动会自动升级导致节点运行中的业务中断,请谨慎操作。
    表2 选择换绑节点参数说明

    参数

    说明

    节点来源

    选择换绑前节点所属资源池类型。可选择“物理资源池”“资源队列”的节点换绑。

    节点类型

    选择换绑节点的节点类型,支持“单节点”“超节点”类型。

    • 单节点:单一物理主机或虚拟主机,提供基础的独立计算、存储和网络资源。
    • 超节点:融合架构节点,提供大规模计算资源池,支持灵活调配和高密度部署。超节点专门用于支持大规模的模型推理任务。这些服务器通常配备有多个计算卡(如昇腾NPU),能够提供强大的计算能力,以满足高负载的推理需求。超节点资源仅支持西南-贵阳一和华东二区域。

    实例规格

    选择换绑节点的实例规格。仅支持选择同一规格的节点进行换绑操作。

    节点批次

    “节点类型”选择“超节点”时,需要选择换绑节点的节点批次。仅支持选择同一批次的节点进行换绑操作。

    节点列表

    在节点列表中勾选换绑的节点。

    节点排水

    节点排水通常指的是清空节点资源以便释放或移除不再需要的节点。

    启用节点排水后将会对换绑资源队列的节点进行排水,仅本次换绑资源队列操作生效。可前往节点页签查看排水信息,如果排水失败,可将鼠标移至节点状态查看排水失败原因。

    警告:

    排水过程中节点会被设置为不可调度,节点上的作业负载会被驱逐,可能导致作业失败。

  5. 单击“下一步”,选择目标资源池类型,并勾选目标资源池,单击“确定”

    “节点来源”“物理资源池”,目标资源池必须是资源队列,“节点来源”“资源队列”,目标资源池支持选择物理资源池和资源队列。

    如果选择的节点类型是超节点,仅支持换绑至与实例规格匹配,且已选节点可被资源池规格步长整除的资源队列。
    图4 选择目标资源队列

相关文档