更新时间:2025-05-21 GMT+08:00

分区管理

分区用于将集群节点划分为不同的逻辑节点资源池,以满足不同作业的调度需求(如优先级、硬件类型、资源限制等)。分区中节点数量不设限,不同分区的节点资源互相独立。

分区

  • 分区(Partition)
    • 分区是驾仓中最基础的节点池实现方式,将物理节点划分为多个逻辑组。
    • 每个分区可以独立配置资源限制、调度策略和访问权限。

  • 节点属性(Node Features)

    通过 Features 标签标记节点属性(如硬件类型、网络架构),按照机器特性再次划分逻辑分区。

  • 动态资源池(Dynamic Node Pools)

    结合云弹性伸缩节点状态管理,动态扩展节点池规模(例如,按需创建云节点并加入分区)。

分区的配置

  1. 创建分区

    指定分区使用的镜像,网络,安全组等参数,支持运行时动态添加/删除节点。

  2. 修改分区

    修改节点的分区位置

  3. 提交作业到分区,详情参见工作队列

分区绑定扩缩容策略

页面操作设置扩容策略/缩容策略

查看分区信息

  • 列出所有分区

    sinfo -s # 显示分区摘要

    sinfo -p p1 # 查看特定分区的节点状态

  • 查看节点详细信息:

    scontrol show nodes node1 # 包括所属分区、特性、资源等

  • 监控分区使用情况:

    squeue -p p1 -o "%i %P %u %T" # 查看p1分区的作业状态

  • 页面查看分区情况

  • 页面查看分区作业情况