文档首页/ 弹性云服务器 ECS/ 常见问题/ 操作系统相关问题/ GPU加速云服务器出现NVIDIA内核崩溃,如何解决?
更新时间:2024-09-02 GMT+08:00
分享

GPU加速云服务器出现NVIDIA内核崩溃,如何解决?

问题描述

GPU加速型云服务器在运行过程中发生crash,重启云服务器后检查日志,发现没有打印NVIDIA驱动堆栈日志。

图1 堆栈日志信息

可能原因

云服务器在运行过程中遇到NVIDIA官方驱动bug,导致云服务器内核崩溃。

处理方法

  • 方法一:重启云服务器。

    重启后,云服务器可以正常使用,该问题再次发生概率通常较低。

  • 方法二:更新驱动版本。
    如果云服务器重启后,该问题依然出现,则需要通过NVIDIA官方下载对应CUDA驱动版本的最新版本。
    1. 登录NVIDIA官方驱动下载页面,地址为:https://www.nvidia.cn/Download/index.aspx?lang=cn
      图2 驱动下载页面
    2. 填写产品信息并单击“搜索”,可跳转至驱动的最新版本下载页面。
      图3 最新版本驱动

      您可以通过“发布重点”获取该驱动版本更新或解决的问题,用于判断是否进行升级。

相关文档