更新时间:2025-05-16 GMT+08:00

CCE AI套件(NVIDIA GPU)

插件简介

CCE AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。

约束与限制

  • 下载的驱动必须是后缀为“.run”的文件。
  • 仅支持Nvidia Tesla驱动,不支持GRID驱动。
  • 安装或重装插件时,需要保证驱动下载链接正确且可正常访问,插件对链接有效性不做额外校验。
  • 插件仅提供驱动的下载及安装脚本执行功能,插件的状态仅代表插件本身功能正常,与驱动是否安装成功无关。
  • 对于GPU驱动版本与您业务应用的兼容性(GPU驱动版本与CUDA库版本的兼容性),CCE不做保证,请您自行验证。
  • 对于已经安装GPU驱动的自定义操作系统镜像,CCE无法保证其提供的GPU驱动与CCE其他GPU组件兼容(例如监控组件等)。

安装插件

  1. 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到CCE AI套件(NVIDIA GPU)插件,单击“安装”
  2. 设置插件支持的“参数配置”

    表1 CCE AI套件(NVIDIA GPU)插件参数配置

    参数

    参数说明

    集群默认驱动

    集群下全部GPU节点将使用相同的驱动,请选择合适的GPU驱动版本,或自定义驱动链接地址,填写Nvidia驱动的下载链接。
    须知:
    • 如果下载链接为公网地址,如nvidia官网地址(https://us.download.nvidia.com/tesla/470.103.01/NVIDIA-Linux-x86_64-470.103.01.run),各GPU节点均需要绑定EIP。获取驱动链接方法请参考获取驱动链接-公网地址
    • 若下载链接为OBS上的链接,无需绑定EIP 。获取驱动链接方法请参考获取驱动链接-OBS地址
    • 请确保Nvidia驱动版本与GPU节点适配。
    • 更改驱动版本后,需要重启节点才能生效。

    插件安装完成后,GPU虚拟化和节点池驱动配置请前往“配置中心 > 异构资源配置”页进行设置。

  3. 单击“安装”,安装插件的任务即可提交成功。

    卸载插件将会导致重新调度的GPU Pod无法正常运行,但已运行的GPU Pod不会受到影响。

验证插件

插件安装完成后,在GPU节点及调度了GPU资源的容器中执行nvidia-smi命令,验证GPU设备及驱动的可用性。

  • GPU节点:
    # 插件版本为2.0.0以下时,执行以下命令:
    cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi
    
    # 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令:
    cd /usr/local/nvidia/bin && ./nvidia-smi
  • 容器:
    cd /usr/local/nvidia/bin && ./nvidia-smi

若能正常返回GPU信息,说明设备可用,插件安装成功。

GPU驱动支持列表

  • 当前GPU驱动支持列表仅针对1.2.28及以上版本的CCE AI套件(NVIDIA GPU)插件。
  • 如果您需要安装最新版本的GPU驱动,请将您的CCE AI套件(NVIDIA GPU)插件升级到最新版本。
表2 GPU驱动支持列表

GPU型号

支持集群类型

机型规格

操作系统

HCE OS 2.0

Ubuntu 22.04.5

Ubuntu 22.04.4

Ubuntu 22.04.3

CentOS Linux release 7.6

Tesla T4

CCE Standard集群

g6

pi2

535.216.03

535.54.03

510.47.03

470.57.02

535.216.03

535.161.08

535.216.03

535.161.08

535.216.03

535.161.08

535.54.03

470.141.03

535.54.03

470.141.03

Tesla V100

CCE Standard集群

p2s

p2vs

p2v

535.216.03

535.54.03

510.47.03

470.57.02

535.216.03

535.161.08

535.216.03

535.161.08

535.216.03

535.161.08

535.54.03

470.141.03

535.54.03

470.141.03

获取驱动链接-公网地址

  1. 登录CCE控制台。
  2. 创建节点,在“节点规格”处选择要创建的GPU节点,选中后下方显示的信息中可以看到节点的GPU显卡型号。

  1. 登录到NVIDIA驱动下载页面,搜索对应的驱动信息,其中操作系统必须选Linux 64-bit

    图1 参数选择

  2. 驱动信息确认完毕,单击“Find”按钮,会跳转到驱动信息展示页面,找到需要下载的驱动,单击“view”跳转到下载页面。

    图2 驱动信息

  3. 鼠标右键单击“Download”按钮,复制下载链接。

    图3 获取链接

获取驱动链接-OBS地址

  1. 将驱动上传到对象存储服务OBS中,并将驱动文件设置为公共读。

    节点重启时会重新下载驱动进行安装,请保证驱动的OBS桶链接长期有效。

  2. 在桶列表单击待操作的桶,进入“概览”页面。
  3. 在左侧导航栏,单击“对象”。
  4. 单击目标对象名称,在对象详情页复制驱动链接。

组件说明

表3 CCE AI套件(NVIDIA GPU)插件组件

容器组件

说明

资源类型

nvidia-driver-installer

为节点安装Nvidia GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用。

DaemonSet

nvidia-gpu-device-plugin

为容器提供Nvidia GPU异构算力的Kubernetes设备插件。

DaemonSet

nvidia-operator

为集群提供Nvidia GPU节点管理能力。

Deployment

GPU指标

关于GPU指标详情请参见GPU监控指标说明