AI套件(NV GPU)
插件简介
AI套件(NV GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。
约束与限制
- 创建专属资源池时,仅实例规格类型选择“GPU”时自动安装。
- 插件升级完成前,请勿进行GPU驱动升级,否则可能会导致驱动升级卡住或者失败。
验证插件
插件安装完成后,在GPU节点及调度了GPU资源的容器中执行nvidia-smi命令,验证GPU设备及驱动的可用性。
- GPU节点:
- 插件版本为2.0.0以下时,请执行以下命令:
cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi
- 插件版本为2.0.0及以上时,请执行以下命令:
cd /usr/local/nvidia/bin && ./nvidia-smi
- 插件版本为2.0.0以下时,请执行以下命令:
- 容器:
- 当集群版本在1.27及以下时,请执行以下命令:
cd /usr/local/nvidia/bin && ./nvidia-smi
- 当集群版本在1.28及以上时,请执行以下命令:
cd /usr/bin && ./nvidia-smi
- 当集群版本在1.27及以下时,请执行以下命令:
若能正常返回GPU信息,说明设备可用,插件安装成功。
组件说明
容器组件 |
说明 |
资源类型 |
---|---|---|
nvidia-driver-installer |
为节点安装NV GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用。 |
DaemonSet |
hce20-nvidia-driver-installer |
为节点安装NV GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用(用于适配OS HCE 2.0)。 |
DaemonSet |
ubuntu22-nvidia-driver-installer |
为节点安装NV GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用(用于适配OS Ubuntu22)。 |
DaemonSet |
nvidia-gpu-device-plugin |
为容器提供NV GPU异构算力的Kubernetes设备插件。 |
DaemonSet |
nvidia-operator |
为集群提供NV GPU节点管理能力。 |
Deployment |
dcgm-exporter |
启用dcgm-exporter组件进行DCGM指标观测时安装,用于采集GPU指标。 |
DaemonSet |
版本记录
插件版本 |
更新特性 |
---|---|
2.7.63 |
修复安全漏洞 |
2.7.42 |
新增NV 535.216.03驱动,支持XGPU特性 |
2.6.4 |
更新GPU卡逻辑隔离逻辑 |
2.0.72 |
更新GPU卡逻辑隔离逻辑 |
2.0.48 |
修复安装驱动的问题 |
2.0.44 |
|
2.0.14 |
|
1.2.29 |
|
1.2.24 |
|
1.2.20 |
设置插件别名为gpu |
1.2.15 |
适配CCE v1.23集群 |