文档首页/ 云容器引擎 CCE/ 用户指南（安卡拉区域）/ 调度/ Volcano调度/ NUMA亲和性调度

更新时间：2024-12-04 GMT+08:00

查看PDF

NUMA亲和性调度

背景信息

当节点运行许多CPU绑定的Pod时，工作负载可以迁移到不同的CPU核心，这取决于Pod是否被限制以及调度时哪些CPU核心可用。许多工作负载对此迁移不敏感，因此在没有任何干预的情况下工作正常。但是，在CPU缓存亲和性和调度延迟显著影响工作负载性能的工作负载中，如果CPU是从不同的NUMA节点分配的，会导致额外的延迟。因此kubelet允许使用拓扑管理器（Topology Manager）替代CPU管理策略来确定节点的分配。

CPU Manager和拓扑管理器都是kubelet组件，但有以下限制：

K8s默认调度器不感知NUMA拓扑。因此，可能会调度到不满足NUMA拓扑要求的节点上，然后工作负载实例启动失败。这对于Tensorflow作业来说是不可接受的。如果节点上有任何工作进程或ps失败，则作业将失败。
管理器是节点级的，导致无法匹配整个集群中NUMA拓扑的最佳节点。

Volcano的目标是解决调度程序NUMA拓扑感知的限制，以便实现以下目标：

避免将Pod调度到NUMA拓扑不匹配的节点。
将Pod调度到NUMA拓扑的最佳节点。

更多资料请查看社区NUMA亲和性插件指导链接：https://github.com/volcano-sh/volcano/blob/master/docs/design/numa-aware.md

支持范围

支持CPU资源拓扑调度
支持Pod级拓扑策略

Pod调度预测

当Pod设置了拓扑策略时，Volcano会根据Pod设置的拓扑策略预测匹配的节点列表。调度过程如下：

根据Pod设置的Volcano拓扑策略，筛选具有相同策略的节点。Volcano提供的拓扑策略与拓扑管理器相同。
在设置了相同策略的节点中，筛选CPU拓扑满足该策略要求的节点进行调度。

Volcano拓扑策略	节点调度行为
Volcano拓扑策略	1.筛选具有相同策略的节点	2.节点的CPU拓扑满足该策略的要求
none	无筛选行为： none：可调度 best-effort：可调度 restricted：可调度 single-numa-node：可调度	-
best-effort	筛选拓扑策略同样为“best-effort”的节点： none：不可调度 best-effort：可调度 restricted：不可调度 single-numa-node：不可调度	尽可能满足策略要求进行调度：优先调度至单NUMA节点，如果单NUMA节点无法满足CPU申请值，允许调度至多个NUMA节点。
restricted	筛选拓扑策略同样为“restricted”的节点： none：不可调度 best-effort：不可调度 restricted：可调度 single-numa-node：不可调度	严格限制的调度策略：单NUMA节点的CPU容量上限大于等于CPU的申请值时，仅允许调度至单NUMA节点。此时如果单NUMA节点剩余的CPU可使用量不足，则Pod无法调度。单NUMA节点的CPU容量上限小于CPU的申请值时，可允许调度至多个NUMA节点。
single-numa-node	筛选拓扑策略同样为“single-numa-node”的节点： none：不可调度 best-effort：不可调度 restricted：不可调度 single-numa-node：可调度	仅允许调度至单NUMA节点。

假设单个节点CPU总量为32U，由2个NUMA节点提供资源，分配如下：

工作节点	节点拓扑策略	NUMA节点1上的CPU总量	NUMA节点2上的CPU总量
节点-1	best-effort	16	16
节点-2	restricted	16	16
节点-3	restricted	16	16
节点-4	single-numa-node	16	16

Pod设置拓扑策略后，调度情况如图1所示。

当Pod的CPU申请值为9U时，设置拓扑策略为“best-effort”，Volcano会匹配拓扑策略同样为“best-effort”的节点-1，且该策略允许调度至多个NUMA节点，因此9U的申请值会被分配到2个NUMA节点，该Pod可成功调度至节点-1。
当Pod的CPU申请值为9U时，设置拓扑策略为“restricted”，Volcano会匹配拓扑策略同样为“restricted”的节点-2/节点-3，且单NUMA节点CPU总量满足9U的申请值，但单NUMA节点剩余可用的CPU量无法满足，因此该Pod无法调度。
当Pod的CPU申请值为17U时，设置拓扑策略为“restricted”，Volcano会匹配拓扑策略同样为“restricted”的节点-2/节点-3，且单NUMA节点CPU总量无法满足17U的申请值，可允许分配到2个NUMA节点，该Pod可成功调度至节点-3。
当Pod的CPU申请值为17U时，设置拓扑策略为“single-numa-node”，Volcano会匹配拓扑策略同样为“single-numa-node”的节点，但由于单NUMA节点CPU总量均无法满足17U的申请值，因此该Pod无法调度。

图1 NUMA调度策略对比

调度优先级

不管是什么拓扑策略，都是希望把Pod调度到当时最优的节点上，这里通过给每一个节点进行打分的机制来排序筛选最优节点。

原则：尽可能把Pod调度到需要跨NUMA节点最少的工作节点上。

打分公式如下：

score = weight * (100 - 100 * numaNodeNum / maxNumaNodeNum)

参数说明：

weight：NUMA Aware Plugin的权重。
numaNodeNum：表示工作节点上运行该Pod需要NUMA节点的个数。
maxNumaNodeNum：表示所有工作节点中该Pod的最大NUMA节点个数。

例如，假设有三个节点满足Pod的CPU拓扑策略，且NUMA Aware Plugin的权重设为10：

Node A：由1个NUMA节点提供Pod所需的CPU资源，即numaNodeNum=1
Node B：由2个NUMA节点提供Pod所需的CPU资源，即numaNodeNum=2
Node C：由4个NUMA节点提供Pod所需的CPU资源，即numaNodeNum=4

则根据以上公式，maxNumaNodeNum=4

score(Node A) = 10 * (100 - 100 * 1 / 4) = 750
score(Node B) = 10 * (100 - 100 * 2 / 4) = 500
score(Node C) = 10 * (100 - 100 * 4 / 4) = 0

因此最优节点为Node A。

Volcano开启NUMA亲和性调度

开启静态（static）CPU管理策略，具体请参考开启CPU管理策略。
配置CPU拓扑策略。
1. 登录CCE控制台，单击集群名称进入集群，在左侧选择“节点管理”，在右侧选择“节点池”页签，单击节点池名称后的“ 配置管理”。
2. 将kubelet的拓扑管理策略（topology-manager-policy）的值修改为需要的CPU拓扑策略即可。
  有效拓扑策略为“none”、“best-effort”、“restricted”、“single-numa-node”，具体策略对应的调度行为请参见Pod调度预测。

开启numa-aware插件功能和resource_exporter功能。

Volcano 1.7.1及以上版本

登录CCE控制台，单击集群名称进入集群，单击左侧导航栏的“插件中心”，在右侧找到Volcano，单击“编辑”，并在“参数配置”中设置Volcano调度器配置参数。

{
    "ca_cert": "",
    "default_scheduler_conf": {
        "actions": "allocate, backfill, preempt",
        "tiers": [
            {
                "plugins": [
                    {
                        "name": "priority"
                    },
                    {
                        "name": "gang"
                    },
                    {
                        "name": "conformance"
                    }
                ]
            },
            {
                "plugins": [
                    {
                        "name": "drf"
                    },
                    {
                        "name": "predicates"
                    },
                    {
                        "name": "nodeorder"
                    }
                ]
            },
            {
                "plugins": [
                    {
                        "name": "cce-gpu-topology-predicate"
                    },
                    {
                        "name": "cce-gpu-topology-priority"
                    },
                    {
                        "name": "cce-gpu"
                    },
                    {
                        // add this also enable resource_exporter
                        "name": "numa-aware", 
                        // the weight of the NUMA Aware Plugin
                        "arguments": { 
                           "weight": "10"
                        }
                    }
                ]
            },
            {
                "plugins": [
                    {
                        "name": "nodelocalvolume"
                    },
                    {
                        "name": "nodeemptydirvolume"
                    },
                    {
                        "name": "nodeCSIscheduling"
                    },
                    {
                        "name": "networkresource"
                    }
                ]
            }
        ]
    },
    "server_cert": "",
    "server_key": ""
}

Volcano 1.7.1以下版本

Volcano插件开启resource_exporter_enable参数，用于收集节点numa拓扑信息。

{
   "plugins": {
      "eas_service": {
         "availability_zone_id": "",
         "driver_id": "",
         "enable": "false",
         "endpoint": "",
         "flavor_id": "",
         "network_type": "",
         "network_virtual_subnet_id": "",
         "pool_id": "",
         "project_id": "",
         "secret_name": "eas-service-secret"
      }
   },
   "resource_exporter_enable": "true"
}

开启后可以查看当前节点的numa拓扑信息。

kubectl get numatopo 
NAME              AGE
node-1            4h8m
node-2            4h8m
node-3            4h8m

启用Volcano numa-aware算法插件。

kubectl edit cm -n kube-system volcano-scheduler-configmap

kind: ConfigMap
apiVersion: v1
metadata:
  name: volcano-scheduler-configmap
  namespace: kube-system
data:
  default-scheduler.conf: |-
    actions: "allocate, backfill, preempt"
    tiers:
    - plugins:
      - name: priority
      - name: gang
      - name: conformance
    - plugins:
      - name: overcommit
      - name: drf
      - name: predicates
      - name: nodeorder
    - plugins:
      - name: cce-gpu-topology-predicate
      - name: cce-gpu-topology-priority
      - name: cce-gpu
    - plugins:
      - name: nodelocalvolume
      - name: nodeemptydirvolume
      - name: nodeCSIscheduling
      - name: networkresource
        arguments:
          NetworkType: vpc-router
      - name: numa-aware # add it to enable numa-aware plugin
        arguments:
          weight: 10 # the weight of the NUMA Aware Plugin

使用Volcano设置NUMA亲和性调度

以下为使用Volcano设置NUMA亲和性调度的示例。

示例一：在无状态工作负载中配置NUMA亲和性。

kind: Deployment
apiVersion: apps/v1
metadata:
  name: numa-tset
spec:
  replicas: 1
  selector:
    matchLabels:
      app: numa-tset
  template:
    metadata:
      labels:
        app: numa-tset
      annotations:
        volcano.sh/numa-topology-policy: single-numa-node    # set the topology policy
    spec:
      containers:
        - name: container-1
          image: nginx:alpine
          resources:
            requests:
              cpu: 2           # 必须为整数，且需要与limits中一致
              memory: 2048Mi
            limits:
              cpu: 2           # 必须为整数，且需要与requests中一致
              memory: 2048Mi
      imagePullSecrets:
      - name: default-secret

示例二：创建一个Volcano Job，并使用NUMA亲和性。

apiVersion: batch.volcano.sh/v1alpha1
kind: Job
metadata:
  name: vj-test
spec:
  schedulerName: volcano
  minAvailable: 1
  tasks:
    - replicas: 1
      name: "test"
      topologyPolicy: best-effort   # set the topology policy for task 
      template:
        spec:
          containers:
            - image: alpine
              command: ["/bin/sh", "-c", "sleep 1000"]
              imagePullPolicy: IfNotPresent
              name: running
              resources:
                limits:
                  cpu: 20
                  memory: "100Mi"
          restartPolicy: OnFailure

NUMA调度分析。

假设NUMA节点情况如下：

工作节点	节点策略拓扑管理器策略	NUMA 节点 0 上的可分配 CPU	NUMA 节点 1 上的可分配 CPU
node-1	single-numa-node	16U	16U
node-2	best-effort	16U	16U
node-3	best-effort	20U	20U

则根据以上示例，

示例一中，Pod的CPU申请值为2U，设置拓扑策略为“single-numa-node”，因此会被调度到相同策略的node-1。
示例二中，Pod的CPU申请值为20U，设置拓扑策略为“best-effort”，它将被调度到node-3，因为node-3可以在单个NUMA节点上分配Pod的CPU请求，而node-2需要在两个NUMA节点上执行此操作。

确认NUMA使用情况

您可以通过lscpu命令查看当前节点的CPU概况：

# 查看当前节点的CPU概况
lscpu
...
CPU(s):              32
NUMA node(s):        2
NUMA node0 CPU(s):   0-15
NUMA node1 CPU(s):   16-31

然后查看NUMA节点使用情况。

# 查看当前节点的CPU分配
cat /var/lib/kubelet/cpu_manager_state
{"policyName":"static","defaultCpuSet":"0,10-15,25-31","entries":{"777870b5-c64f-42f5-9296-688b9dc212ba":{"container-1":"16-24"},"fb15e10a-b6a5-4aaa-8fcd-76c1aa64e6fd":{"container-1":"1-9"}},"checksum":318470969}

以上示例中表示，节点上运行了两个容器，一个占用了NUMA node0的1-9核，另一个占用了NUMA node1的16-24核。

父主题： Volcano调度

上一篇：组调度（Gang）

下一篇：云原生混部

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消