更新时间:2025-07-07 GMT+08:00
准备GPU虚拟化资源
CCE GPU虚拟化采用xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。本文介绍如何在GPU节点上实现GPU的调度和隔离能力。
前提条件
配置 |
支持版本 |
---|---|
集群版本 |
v1.23.8-r0、v1.25.3-r0及以上 |
操作系统 |
Huawei Cloud EulerOS 2.0操作系统 |
GPU类型 |
支持Tesla T4、Tesla V100类型的的GPU |
驱动版本 |
GPU虚拟化功能仅支持470.57.02、510.47.03、535.54.03版本的GPU驱动 |
运行时 |
仅支持containerd |
插件 |
集群中需要同时安装以下插件:
|
步骤一:开启GPU虚拟化
集群中需要同时安装CCE AI套件(NVIDIA GPU)插件和Volcano调度器插件。
- 登录CCE控制台,单击集群名称进入集群,在左侧选择“配置中心”。
- 切换至“异构资源配置”页签,开启“GPU虚拟化”,支持配置集群级别和节点池级别的GPU虚拟化。
- 集群级别的GPU虚拟化:
- 开启“GPU配置 > GPU虚拟化”,开启后,全局默认开启GPU虚拟化,支持单GPU卡的算力与显存切分。
- 在“集群默认驱动”的中选择支持GPU虚拟化的驱动。
- 在页面右下角单击“确认配置”。
- 节点池级别的GPU虚拟化:安装2.7.2及以上版本的CCE AI套件(NVIDIA GPU)插件时,支持以节点池级别配置GPU虚拟化开关。
- 在“GPU配置 > 节点池配置”中单击添加行。
- 在“节点池”列表中选择需要配置GPU虚拟化的节点池,并在“驱动选择”中选择支持GPU虚拟化的驱动。配置节点池自定义驱动后,节点池中节点优先使用当前节点池自定义驱动,未指定驱动的节点将使用集群默认驱动。
- 系统将根据节点池指定的驱动版本进行安装,仅对节点池新建节点生效。
- 更新驱动版本后,新建节点直接生效,存量节点需重启节点生效。
- 在GPU虚拟化列中,单击
,开启节点池级别的GPU虚拟化。如果您需要为多个节点池配置GPU虚拟化,请单击“添加行”,继续添加。
- 在页面右下角单击“确认配置”。
- 集群级别的GPU虚拟化:
- GPU虚拟化配置完成后,您可以进一步验证GPU虚拟化是否配置成功。
在左侧导航栏单击“集群 > 节点管理”,在右侧切换至“节点”页签,找到配置GPU虚拟化的节点。在对应节点的“操作”列,单击“更多 > 查看YAML”。如果YAML中“node-status.volcano.sh/nvidia”字段的值为“{"enableXGPU":true}”,则说明该节点GPU虚拟化配置成功。
父主题: GPU虚拟化