更新时间:2026-05-21 GMT+08:00
通过节点标签配置GPU驱动版本
当您需要对单个节点进行差异化驱动配置时,可通过为节点添加特定标签,并在ConfigMap中定义对应的驱动策略,实现精细化的节点级驱动定制。
约束与限制
确保安装或者升级CCE AI套件(NVIDIA GPU)至2.13.1及以上版本。
操作步骤
- 通过YAML安装或编辑CCE AI套件(NVIDIA GPU)。
- 登录CCE控制台,单击集群名称进入集群。
- 在左侧导航栏中选择“插件中心”,在右侧找到CCE AI套件(NVIDIA GPU)插件,先单击“编辑”,然后单击“编辑YAML”。
对于新安装插件的场景,在右侧找到CCE AI套件(NVIDIA GPU)插件,先单击“安装”,再单击“YAML安装”。
- 编辑YAML文件,新增以下信息指定节点标签名,然后单击“提交”。
node_level_driver_label_name: <your-label-name>
例如,设置标签名为gpu.type。

- 配置节点标签。
- 在左侧导航栏中选择“节点管理”,单击“节点”页签。
- 选择目标节点的操作列中的。
- 在“标签管理”对话框中,单击“添加”。
- 填写1中您设置的标签名(例如,gpu.type),标签值为自定义字符串(例如,535.216.03。),然后单击“确定”。

- 为指定标签值定制驱动下载地址。
- 使用kubectl连接到集群,详情请参见通过kubectl连接集群。
- 执行以下命令,编辑kube-system命名空间下的ConfigMap。
kubectl edit cm -n kube-system huawei-gpu-driver-config
- 在编辑界面中,找到 `data` 字段,添加一行新的键值对,格式如下所示。
custom_<标签值>: <驱动下载地址>
本文示例中的标签值为535.216.03。驱动下载地址请参见CCE AI套件(NVIDIA GPU)。

- 保存并退出编辑器。
- 执行以下命令,确认ConfigMap已更新。
kubectl get cm -n kube-system huawei-gpu-driver-config -o yaml
检查输出信息中是否包含您刚刚添加的 `custom_<标签值>` 字段及其对应的驱动下载地址。
- 重启节点并检查新驱动。
- 执行以下命令,重启节点。
sudo reboot
- 节点重启完成后,重新登录到该节点。
- 执行以下命令,确认驱动是否已成功安装并运行。
nvidia-smi
确认输出信息中显示的驱动版本与目标版本一致。
+-----------------------------------------------------------------------------+ | NVIDIA-SMI 535.216.03 Driver Version: 535.216.03 CUDA Version: 12.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
- 执行以下命令,重启节点。