AI套件(NV GPU)
插件简介
AI套件(NV GPU)插件是用于支持在容器中管理GPU设备的插件,当集群中使用GPU节点时,必须安装此插件。
约束与限制
- 创建专属资源池时,仅实例规格类型选择“GPU”时自动安装。
- 插件升级完成前,请勿进行GPU驱动升级,否则可能会导致驱动升级卡住或者失败。
验证插件
插件安装完成后,在GPU节点及调度了GPU资源的容器中执行nvidia-smi命令,验证GPU设备及驱动的可用性。
- GPU节点:
- 插件版本为2.0.0以下时,请执行以下命令:
cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi
- 插件版本为2.0.0及以上时,请执行以下命令:
cd /usr/local/nvidia/bin && ./nvidia-smi
- 插件版本为2.0.0以下时,请执行以下命令:
- 容器:
- 当集群版本在1.27及以下时,请执行以下命令:
cd /usr/local/nvidia/bin && ./nvidia-smi
- 当集群版本在1.28及以上时,请执行以下命令:
cd /usr/bin && ./nvidia-smi
- 当集群版本在1.27及以下时,请执行以下命令:
若能正常返回GPU信息,说明设备可用,插件安装成功。

组件说明
| 容器组件 | 说明 | 资源类型 |
|---|---|---|
| nvidia-driver-installer | 为节点安装NV GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用。 | DaemonSet |
| hce20-nvidia-driver-installer | 为节点安装NV GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用(用于适配OS HCE 2.0)。 | DaemonSet |
| ubuntu22-nvidia-driver-installer | 为节点安装NV GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用(用于适配OS Ubuntu22)。 | DaemonSet |
| nvidia-gpu-device-plugin | 为容器提供NV GPU异构算力的Kubernetes设备插件。 | DaemonSet |
| nvidia-operator | 为集群提供NV GPU节点管理能力。 | Deployment |
| dcgm-exporter | 启用dcgm-exporter组件进行DCGM指标观测时安装,用于采集GPU指标。 | DaemonSet |
版本记录
| 插件版本 | 更新特性 |
|---|---|
| 2.13.1 | 支持570.86.15版本驱动,修复低版本插件安装驱动失败的问题。 |
| 2.8.4 | 修复安全漏洞 |
| 2.7.63 | 修复安全漏洞 |
| 2.7.42 | 新增NV 535.216.03驱动,支持XGPU特性。 |
| 2.6.4 | 更新GPU卡逻辑隔离逻辑 |
| 2.0.72 | 更新GPU卡逻辑隔离逻辑 |
| 2.0.48 | 修复安装驱动的问题 |
| 2.0.44 |
|
| 2.0.14 |
|
| 1.2.29 |
|
| 1.2.24 |
|
| 1.2.20 | 设置插件别名为gpu |
| 1.2.15 | 适配CCE v1.23集群 |