更新时间:2024-12-04 GMT+08:00

工作负载异常:GPU节点部署服务报错

问题现象

客户在CCE集群的GPU节点上部署服务出现如下问题:

  1. 容器无法查看显存。
  2. 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。
    • 2个是能正常访问的CUDA版本分别是10.1和10.0
    • 其他服务CUDA版本也在这2个范围内
  3. 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。

问题定位

  1. GPU插件的驱动版本较低,客户单独下载驱动安装后正常。
  2. 客户工作负载中未声明需要gpu资源。

建议方案

节点安装了gpu-beta(gpu-device-plugin)插件后,会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败,请排查nvidia驱动是否下载成功。

  • GPU节点:
    # 插件版本为2.0.0以下时,执行以下命令:
    cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi
    
    # 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令:
    cd /usr/local/nvidia/bin && ./nvidia-smi
  • 容器:
    cd /usr/local/nvidia/bin && ./nvidia-smi

若能正常返回GPU信息,说明设备可用,插件安装成功。

如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。

nvidia驱动建议放在OBS桶里,并设置为公共读。