更新时间:2025-09-05 GMT+08:00
分享

AI套件(NV GPU)

插件简介

AI套件(NV GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。

约束与限制

  • 创建专属资源池时,仅实例规格类型选择“GPU”时自动安装。
  • 插件升级完成前,请勿进行GPU驱动升级,否则可能会导致驱动升级卡住或者失败。

验证插件

插件安装完成后,在GPU节点及调度了GPU资源的容器中执行nvidia-smi命令,验证GPU设备及驱动的可用性。

  • GPU节点:
    • 插件版本为2.0.0以下时,请执行以下命令:
      cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi
    • 插件版本为2.0.0及以上时,请执行以下命令:
      cd /usr/local/nvidia/bin && ./nvidia-smi
  • 容器:
    • 当集群版本在1.27及以下时,请执行以下命令:
      cd /usr/local/nvidia/bin && ./nvidia-smi
    • 当集群版本在1.28及以上时,请执行以下命令:
      cd /usr/bin && ./nvidia-smi

若能正常返回GPU信息,说明设备可用,插件安装成功。

组件说明

表1 CCE AI套件(GPU)插件组件

容器组件

说明

资源类型

nvidia-driver-installer

为节点安装NV GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用。

DaemonSet

hce20-nvidia-driver-installer

为节点安装NV GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用(用于适配OS HCE 2.0)。

DaemonSet

ubuntu22-nvidia-driver-installer

为节点安装NV GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用(用于适配OS Ubuntu22)。

DaemonSet

nvidia-gpu-device-plugin

为容器提供NV GPU异构算力的Kubernetes设备插件。

DaemonSet

nvidia-operator

为集群提供NV GPU节点管理能力。

Deployment

dcgm-exporter

启用dcgm-exporter组件进行DCGM指标观测时安装,用于采集GPU指标。

DaemonSet

版本记录

表2 AI套件(NV GPU)版本记录

插件版本

更新特性

2.7.63

修复安全漏洞

2.7.42

新增NV 535.216.03驱动,支持XGPU特性

2.6.4

更新GPU卡逻辑隔离逻辑

2.0.72

更新GPU卡逻辑隔离逻辑

2.0.48

修复安装驱动的问题

2.0.44

  • 支持535版本NV驱动
  • 支持非root用户使用XGPU
  • 优化启动逻辑

2.0.14

  • 支持xGPU设备监控
  • 支持nvidia.com/gpu与volcano.sh/gpu-* api兼容

1.2.29

  • 适配OS Ubuntu22.04
  • GPU驱动目录自动挂载优化

1.2.24

  • 节点池支持配置GPU驱动版本
  • 支持GPU指标采集

1.2.20

设置插件别名为gpu

1.2.15

适配CCE v1.23集群

相关文档