工作负载异常:GPU节点部署服务报错
问题现象
客户在CCE集群的GPU节点上部署服务出现如下问题:
- 容器无法查看显存。
- 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。
- 2个是能正常访问的CUDA版本分别是10.1和10.0
- 其他服务CUDA版本也在这2个范围内
- 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。
问题定位
- GPU插件的驱动版本较低,客户单独下载驱动安装后正常。
- 客户工作负载中未声明需要gpu资源。
建议方案
节点安装了gpu-beta(gpu-device-plugin)插件后,会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败,请排查nvidia驱动是否下载成功。
- GPU节点:
# 插件版本为2.0.0以下时,执行以下命令: cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi # 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令: cd /usr/local/nvidia/bin && ./nvidia-smi
- 容器:
cd /usr/local/nvidia/bin && ./nvidia-smi
若能正常返回GPU信息,说明设备可用,插件安装成功。
如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。
nvidia驱动建议放在OBS桶里,并设置为公共读。