文档首页/ 云容器引擎 CCE/ 用户指南/ 调度/ GPU调度/ GPU节点驱动版本/ 通过节点标签配置GPU驱动版本
更新时间:2026-05-21 GMT+08:00
分享

通过节点标签配置GPU驱动版本

当您需要对单个节点进行差异化驱动配置时,可通过为节点添加特定标签,并在ConfigMap中定义对应的驱动策略,实现精细化的节点级驱动定制。

约束与限制

确保安装或者升级CCE AI套件(NVIDIA GPU)至2.13.1及以上版本。

操作步骤

  1. 通过YAML安装或编辑CCE AI套件(NVIDIA GPU)。

    1. 登录CCE控制台,单击集群名称进入集群。
    2. 在左侧导航栏中选择“插件中心”,在右侧找到CCE AI套件(NVIDIA GPU)插件,先单击“编辑”,然后单击“编辑YAML”

      对于新安装插件的场景,在右侧找到CCE AI套件(NVIDIA GPU)插件,先单击“安装”,再单击“YAML安装”

    3. 编辑YAML文件,新增以下信息指定节点标签名,然后单击“提交”
      node_level_driver_label_name: <your-label-name>

      例如,设置标签名为gpu.type。

  2. 配置节点标签。

    1. 在左侧导航栏中选择“节点管理”,单击“节点”页签。
    2. 选择目标节点的操作列中的更多 > 标签管理
    3. “标签管理”对话框中,单击“添加”
    4. 填写1中您设置的标签名(例如,gpu.type),标签值为自定义字符串(例如,535.216.03。),然后单击“确定”

  3. 为指定标签值定制驱动下载地址。

    1. 使用kubectl连接到集群,详情请参见通过kubectl连接集群
    2. 执行以下命令,编辑kube-system命名空间下的ConfigMap。
      kubectl edit cm -n kube-system huawei-gpu-driver-config
    3. 在编辑界面中,找到 `data` 字段,添加一行新的键值对,格式如下所示。
      custom_<标签值>: <驱动下载地址>

      本文示例中的标签值为535.216.03。驱动下载地址请参见CCE AI套件(NVIDIA GPU)

    4. 保存并退出编辑器。
    5. 执行以下命令,确认ConfigMap已更新。
      kubectl get cm -n kube-system huawei-gpu-driver-config -o yaml

      检查输出信息中是否包含您刚刚添加的 `custom_<标签值>` 字段及其对应的驱动下载地址。

  4. 重启节点并检查新驱动。

    1. 执行以下命令,重启节点。
      sudo reboot
    2. 节点重启完成后,重新登录到该节点。
    3. 执行以下命令,确认驱动是否已成功安装并运行。
      nvidia-smi

      确认输出信息中显示的驱动版本与目标版本一致。

      +-----------------------------------------------------------------------------+
      | NVIDIA-SMI 535.216.03   Driver Version: 535.216.03   CUDA Version: 12.2     |
      |-------------------------------+----------------------+----------------------+
      | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
      | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |

相关文档