工作负载异常：GPU节点部署服务报错

客户在CCE集群的GPU节点上部署服务出现如下问题：

容器无法查看显存。
部署了7个GPU服务，有2个是能正常访问的，其他启动时都有报错。
- 2个是能正常访问的CUDA版本分别是10.1和10.0
- 其他服务CUDA版本也在这2个范围内
在GPU服务容器中发现一些新增的文件core.*，在以前的部署中没有出现过。

节点安装了gpu-beta（gpu-device-plugin）插件后，会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败，请排查nvidia驱动是否下载成功。

GPU节点：

# 插件版本为2.0.0以下时，执行以下命令：
cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi

# 插件版本为2.0.0及以上时，驱动安装路径更改，需执行以下命令：
cd /usr/local/nvidia/bin && ./nvidia-smi

容器：

cd /usr/local/nvidia/bin && ./nvidia-smi

若能正常返回GPU信息，说明设备可用，插件安装成功。

如果驱动地址填写错误，需要将插件卸载后重新安装，并配置正确的地址。

nvidia驱动建议放在OBS桶里，并设置为公共读。

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消