准备GPU资源
本文介绍如何在使用GPU能力前所需要的基础软件、硬件规划与准备工作。
基础规划
| 配置 | 支持版本 | 
|---|---|
| 集群类型及版本 | 本地集群1.28及以上 | 
| 操作系统 | 华为云欧拉操作系统 2.0 | 
| 系统架构 | X86 | 
| GPU类型 | T4、V100 | 
| 驱动版本 | GPU虚拟化功能仅支持470.57.02、510.47.03、535.54.03、535.216.03版本的GPU驱动。 | 
| 容器运行时 | containerd | 
| 插件 | 集群中需要同时安装以下插件: 
 | 
步骤一:纳管并标记GPU节点
- 在集群中纳管支持GPU虚拟化的节点,具体操作步骤请参见纳管节点。
- 纳管成功后,给对应支持GPU虚拟化节点打上“accelerator: nvidia-{显卡型号}”标签,具体操作步骤请参见为节点添加标签/污点。
    
    图1 为虚拟化节点打标签  
步骤二:安装插件
 
 
   如果您的集群中已安装符合基础规划的插件,您可以跳过此步骤。
 
 
      重启节点前需要排空节点中的Pod,再进行升级重启的操作。请注意预留GPU资源以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败影响业务运行。
- 登录UCS控制台,单击集群名称进入集群,在左侧导航栏中选择“插件管理”,查看“已安装插件”中是否存在volcano插件与gpu-device-plugin插件。
- 若未安装gpu-device-plugin插件,请安装该插件,具体操作请参见gpu-device-plugin。
    
    若要开启GPU虚拟化,请安装volcano插件,具体操作请参见volcano。 
 
  