GPU节点实现自动弹性伸缩

当集群中GPU资源不足时，支持自动进行GPU节点的弹性伸缩。本文将指导您如何创建GPU节点的弹性伸缩策略。

前提条件

在集群中安装CCE AI套件（NVIDIA GPU）及CCE集群弹性引擎。
集群已在“配置中心 > 集群弹性伸缩配置 > 节点扩容条件”中开启“负载无法调度时自动扩容”的开关。

步骤一：节点池配置

登录CCE控制台，单击集群名称进入集群，在左侧导航栏中选择“节点管理”。
单击“创建节点池”，创建一个GPU规格的节点池，操作详情请参见创建节点池。
节点池创建完成后，单击“弹性伸缩”，在“伸缩对象”中将目标规格的“弹性伸缩”按钮开启，然后单击“确定”进行保存。

步骤二：创建GPU负载并自动扩容

使用以下YAML创建一个GPU负载。

apiVersion: apps/v1
kind: Deployment
metadata:
  name: ac-test
  namespace: default
spec:
  replicas: 1  # 副本数
  selector:  
    matchLabels:
      app: ac-test
  template:
    metadata:
      labels:  
        app: ac-test
    spec:
      restartPolicy: Always 
      containers:
        - name: container-1
          image: pytorch/pytorch:2.1.1-cuda12.1-cudnn8-devel
          imagePullPolicy: IfNotPresent
          command: ["/bin/bash", "-c"]
          args:
            - "while true; do nvidia-smi; sleep 10; done"  
          resources:
            requests:
              cpu: 250m
              memory: 512Mi
              nvidia.com/gpu: 1  
            limits:
              cpu: 250m
              memory: 512Mi
              nvidia.com/gpu: 1 
      # 节点亲和性：指定调度到目标GPU节点池（步骤一创建的节点池）
      affinity:
        nodeAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            nodeSelectorTerms:
              - matchExpressions:
                  - key: cce.cloud.com/cce-nodepool
                    operator: In
                    values:
                      - gpu-130-nodepool-67633  #GPU节点池名称