文档首页> 云容器引擎 CCE> 常见问题> 工作负载> 工作负载异常> 工作负载异常:GPU节点部署服务报错
更新时间:2022-05-06 GMT+08:00
分享

工作负载异常:GPU节点部署服务报错

问题现象

客户在华为云CCE集群的GPU节点上部署服务出现如下问题:

  1. 容器无法查看显存。
  2. 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。
    • 2个是能正常访问的CUDA版本分别是10.1和10.0
    • 其他服务CUDA版本也在这2个范围内
  3. 在GPU服务容器中发现一些新增的文件core.*,在以前的部署中没有出现过。

问题定位

  1. gpu-beta插件的驱动版本较低,客户单独下载驱动安装后正常。
  2. 客户工作负载中未声明需要gpu资源。

建议方案

节点安装了gpu-beta插件后,nvidia-smi命令行工具在/opt/cloud/cce/nvidia/bin目录下。如果插件安装后,依然没有这个命令行工具,通常是由于nvidia驱动安装失败。请排查nvidia驱动是否下载成功。(在/opt/cloud/cce/nvidia目录下可以看到驱动文件)

如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。

nvidia驱动建议放在OBS桶里,并设置为公共读。

提交工单

如果上述方法均不能解决您的疑问,提交工单寻求更多帮助。

分享:

工作负载异常所有常见问题

more

close