文档首页/ 华为云UCS/ 用户指南/ UCS集群/ 本地集群/ 管理本地集群/ GPU调度/ 创建GPU应用

更新时间：2024-12-18 GMT+08:00

查看PDF

创建GPU应用

本文介绍如何使用GPU虚拟化能力实现算力和显存隔离，高效利用GPU设备资源。

前提条件

已完成GPU虚拟化资源准备。
如果您需要通过命令行创建，需要使用kubectl连接到集群，详情请参见通过kubectl连接集群。

约束与限制

init容器不支持进行GPU虚拟化。

对于单张GPU卡：
- 最多虚拟化为20个GPU虚拟设备。
- 最多调度20个使用隔离能力的Pod。
- 仅支持调度相同隔离模式（GPU虚拟化支持显存隔离、显存与算力隔离两种隔离模式。）的工作负载。
对于同一工作负载中的不同容器：
- 仅支持配置单一显卡型号，不支持混合配置两种及以上GPU显卡型号。
- 仅支持配置一致GPU使用模式，不支持混合配置虚拟化和非虚拟化模式。
使用GPU虚拟化后，该GPU节点不再支持调度使用共享GPU资源的工作负载。

通过控制台创建GPU应用

登录UCS On Premises集群控制台。
单击集群名称进入集群，在左侧选择“工作负载”，在右上角单击“镜像创建”。
配置工作负载信息。在“容器配置>基本信息”中选择异构资源为GPU，然后选择资源使用模式：
- 整卡模式：整卡模式采用 Kubernetes 默认的调度方式，将 Pod 调度至满足 GPU 资源需求的节点上。
- 共享模式：共享模式可将多个 Pod 调度至同一张 GPU 卡上抢占式运行，负载资源使用率波动较大时能提高空闲 GPU 资源使用率
- 虚拟化模式：采用自研的 GPU 虚拟化技术，能够动态对 GPU 设备显存与算力进行划分，提高 GPU 资源利用率
GPU资源使用模式:
- 整卡模式：单个Pod独享整张显卡，可填1-10，取决于节点显卡数量。
- 共享模式：多个Pod共享显卡，此处配置单个Pod使用显卡的百分比。不支持跨GPU分配，如50%单显卡只会分配到一张卡上。
GPU虚拟化模式：
- 显存：GPU虚拟化配置项。显存值单位为Mi，需为128的整数倍，最小值为128Mi，若配置的显存超过单张GPU卡的显存，将会出现无法调度状况。
- 算力：GPU虚拟化配置项。算力值单位为%，需为5的倍数，且最大不超过100。算力可以不填写，不填表示显存隔离算力共享。
其余信息都配置完成后，单击“创建”。

通过kubectl命令行创建GPU应用

使用kubectl连接集群。

创建使用GPU的应用。

创建gpu-app.yaml文件，内容如下：

静态分配

apiVersion: apps/v1
kind: Deployment
metadata:
  name: gpu-app
  namespace: default
  labels:
    app: gpu-app
spec:
  replicas: 1
  selector:
    matchLabels:
      app: gpu-app
  template: 
    metadata:
      labels:
        app: gpu-app
    spec:
      containers:
      - name: container-1
        image: <your_image_address>     # 请替换为您的镜像地址
        resources:
          limits:
            nvidia.com/gpu: 200m        # 申请0.2 张卡，取值为1表示独享，小于1表示共享
     schedulerName: volcano            # 开启GPU虚拟化特性但未使用，需指定volcano调度器
      imagePullSecrets:
        - name: default-secret

当前支持隔离显存或同时隔离显存与算力，暂不支持设置为仅隔离算力，即不支持单独设置volcano.sh/gpu-core.percentage。

仅隔离显存：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: gpu-app
  namespace: default
  labels:
    app: gpu-app
spec:
  replicas: 1
  selector:
    matchLabels:
      app: gpu-app
  template: 
    metadata:
      labels:
        app: gpu-app
    spec:
      containers:
      - name: container-1
        image: <your_image_address>      # 请替换为您的镜像地址
        resources:
          limits:
            volcano.sh/gpu-mem.128Mi: 5  # 该Pod分配的显存大小，以128Mi为单位
      schedulerName: volcano            # 使用GPU虚拟化特性必须使用 volcano 调度器
      imagePullSecrets:
        - name: default-secret

同时隔离显存与算力：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: gpu-app
  namespace: default
  labels:
    app: gpu-app
spec:
  replicas: 1
  selector:
    matchLabels:
      app: gpu-app
  template: 
    metadata:
      labels:
        app: gpu-app
    spec:
      containers:
      - name: container-1
        image: <your_image_address>         # 请替换为您的镜像地址
        resources:
          limits:
            volcano.sh/gpu-mem.128Mi: 5     # 该Pod分配的显存大小，以128MiB为单位
            volcano.sh/gpu-core.percentage: 25    # 该Pod分配的算力大小
      schedulerName: volcano                 # 使用GPU虚拟化特性必须使用 volcano 调度器
      imagePullSecrets:
        - name: default-secret

表1 关键参数说明
参数	是否必选	描述
nvidia.com/gpu	否	通过 nvidia.com/gpu 指定申请GPU的数量，支持申请设置为小于1的数量，比如 nvidia.com/gpu: 0.5，这样可以多个Pod共享使用GPU。GPU数量小于1时，不支持跨GPU分配，如0.5 GPU只会分配到一张卡上。指定nvidia.com/gpu后，在调度时不会将负载调度到没有GPU的节点。如果缺乏GPU资源，会报类似如下的Kubernetes事件。 0/2 nodes are available: 2 Insufficient nvidia.com/gpu. 0/4 nodes are available: 1 InsufficientResourceOnSingleGPU, 3 Insufficient nvidia.com/gpu.
volcano.sh/gpu-mem.128Mi	否	显存值单位为128MiB，需为正整数，比如配置5，则表示128MiB*5=640MiB。若配置的显存超过单张GPU卡的显存，将会出现无法调度状况。
volcano.sh/gpu-core.percentage	否	算力值单位为%，需为5的倍数，且最大不超过100。暂不支持设置为仅隔离算力，即不支持单独设置volcano.sh/gpu-core.percentage。

执行以下命令，创建应用。
```
kubectl apply -f gpu-app.yaml
```

验证GPU虚拟化隔离能力

工作负载创建成功后，您可以尝试验证GPU虚拟化的隔离能力。

登录容器查看容器被分配显存总量

kubectl exec -it gpu-app -- nvidia-smi

预期输出：

Wed Apr 12 07:54:59 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.141.03   Driver Version: 470.141.03   CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla V100-SXM2...  Off  | 00000000:21:01.0 Off |                    0 |
| N/A   27C    P0    37W / 300W |   4792MiB /  5000MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
+-----------------------------------------------------------------------------+

预期输出表明，该容器被分配显存总量为5000 MiB，实际使用了4792MiB。

查看所在节点的GPU显存隔离情况（在节点上执行）。

export PATH=$PATH:/usr/local/nvidia/bin;nvidia-smi

预期输出：

Wed Apr 12 09:31:10 2023
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.141.03   Driver Version: 470.141.03   CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla V100-SXM2...  Off  | 00000000:21:01.0 Off |                    0 |
| N/A   27C    P0    37W / 300W |   4837MiB / 16160MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A    760445      C   python                           4835MiB |
+-----------------------------------------------------------------------------+

预期输出表明，GPU节点上的显存总量为16160 MiB，其中示例Pod使用了4837MiB。

父主题： GPU调度

上一篇：准备GPU资源

下一篇：监控GPU资源

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

智能客服提问云社区提问

创建GPU应用

前提条件

约束与限制

通过控制台创建GPU应用

通过kubectl命令行创建GPU应用

验证GPU虚拟化隔离能力

相关文档

意见反馈

文档内容是否对您有帮助？

7*24

备案

专业服务

退订

建议反馈

售前咨询热线