更新时间:2024-11-01 GMT+08:00
GPU加速云服务器出现NVIDIA内核崩溃,如何解决?
问题描述
GPU加速型云服务器在运行过程中发生crash,重启云服务器后检查日志,发现没有打印NVIDIA驱动堆栈日志。
图1 堆栈日志信息
可能原因
云服务器在运行过程中遇到NVIDIA官方驱动bug,导致云服务器内核崩溃。
处理方法
- 方法一:重启云服务器。
- 方法二:更新驱动版本。
如果云服务器重启后,该问题依然出现,则需要通过NVIDIA官方下载对应CUDA驱动版本的最新版本。
- 登录NVIDIA官方驱动下载页面,地址为:https://www.nvidia.cn/Download/index.aspx?lang=cn。
图2 驱动下载页面
- 填写产品信息并单击“搜索”,可跳转至驱动的最新版本下载页面。
图3 最新版本驱动
您可以通过“发布重点”获取该驱动版本更新或解决的问题,用于判断是否进行升级。
- 登录NVIDIA官方驱动下载页面,地址为:https://www.nvidia.cn/Download/index.aspx?lang=cn。