更新时间:2022-09-22 GMT+08:00
GPU节点使用nvidia驱动启动容器排查思路
集群中的节点是否有资源调度失败的事件?
问题现象:
节点运行正常且有GPU资源,但报如下失败信息:
0/9 nodes are aviable: 9 insufficient nvida.com/gpu
排查思路:
业务上报nvidia版本和cuda版本不匹配?
容器中查看cuda的版本,执行如下命令:
cat /usr/local/cuda/version.txt
然后查看容器所在节点的nvidia驱动版本支持的cuda版本范围,是否包含容器中的cuda版本。
相关链接
父主题: 节点运行
节点运行 所有常见问题
- 集群可用,但节点状态为“不可用”?
- CCE集群中的节点无法远程登录,如何排查解决?
- 如何重置CCE集群中节点的密码?
- 如何收集CCE集群中节点的日志?
- 如何解决yum update升级操作系统导致的容器网络不可用问题?
- Node节点vdb盘受损,通过重置节点仍无法恢复节点?
- CCE集群节点中安装kubelet的端口主要有哪些?
- 如何配置Pod使用GPU节点的加速能力?
- 容器使用SCSI类型云硬盘偶现IO卡住
- docker审计日志量过大影响磁盘IO
- thinpool磁盘空间耗尽导致容器或节点异常时,如何解决?
- 节点上监听了哪些端口
- GPU节点使用nvidia驱动启动容器排查思路
- 节点NTP时间不同步
- Containerd节点业务容器标准输出日志写入过快导致节点数据盘使用率过高
- 为什么kubectl top命令查看节点内存使用超过100%?
- 节点事件中一直出现“镜像回收失败”告警
more