文档首页/ 云容器引擎 CCE/ 用户指南/ 调度/ GPU调度/ GPU节点驱动版本/ 通过节点池升级节点的GPU驱动版本
更新时间:2024-08-22 GMT+08:00
分享

通过节点池升级节点的GPU驱动版本

如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。

通过节点池升级存量节点的NVIDIA驱动,本质上是在重启节点的过程中重新安装驱动,因此请务必在升级驱动前确认节点上不存在正在运行的任务。

步骤一:指定节点池驱动版本

  1. 登录节点查看节点上实际的驱动,驱动版本为510.47.03。

    # 插件版本为2.0.0以下时,执行以下命令:  
    cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi   
    # 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令:  
    cd /usr/local/nvidia/bin && ./nvidia-smi

  2. 登录CCE控制台,单击集群名称进入集群,在左侧选择“配置中心”。
  3. 切换至“异构资源配置”页签,在“节点池自定义驱动”下方选择需要更新驱动的节点池及驱动,或者选择填写自定义驱动链接。

    本文档中更新后的驱动为535.54.03。

  4. 单击“确认配置”。

步骤二:重启节点池下的节点

重启节点前建议排空节点中的Pod,详情请参见节点排水。请注意预留GPU资源以满足节点排空过程中的Pod调度需求,防止资源不足导致Pod调度失败影响业务运行。

  1. 登录CCE控制台,单击集群名称进入集群控制台。
  2. 单击“节点管理”,找到更新驱动的节点池,单击“节点列表”。

  3. 单击节点名称跳转到ECS界面。

  4. 单击右上角“重启”。

步骤三:验证驱动升级是否成功

  1. 节点完成重启后,请稍等几分钟,等待驱动安装。
  2. 登录节点,查看节点上的驱动是否更新。

    # 插件版本为2.0.0以下时,执行以下命令:  
     cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi   
     # 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令:  
     cd /usr/local/nvidia/bin && ./nvidia-smi

    查看节点上实际的驱动,驱动版本为535.54.03,驱动版本已更新。

  3. 确认节点及业务运行正常,依次重启节点池下的其他节点。

相关文档