更新时间:2024-08-15 GMT+08:00

如何处理ECC ERROR:存在待隔离页问题

问题描述

  • 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。
  • 某台虚拟机显存使用率突然降低。

判断方式

  1. 执行以下命令,查看显卡是否存在ecc error。

    nvidia-smi

  2. 如果1的回显结果中volatile Uncorr. ECC下ecc error > 0,执行以下命令,查看该GPU卡是否存在待隔离页。

    nvidia-smi -q -i &.{gpu_id} -d PAGE_RETIREMEN

    回显结果中出现No表示不存在待隔离页。

  3. 如果1的回显结果中volatile Uncorr. ECC下ecc error = 0,执行以下命令,查看所有的卡是否存在待隔离页。

    nvidia-smi -q -d PAGE_RETIREMENT

  4. 如果3的回显结果中Pending Page Blacklist为Yes,说明存在待隔离页,需要重新加载驱动去隔离。

处理方法

  • 方法一:
    1. 执行以下命令,查看GPU使用情况并停掉所有占用GPU的进程。

      nvidia-smi

    2. 执行以下命令,重置GPU。

      nvidia-smi -r

    3. 执行以下命令,查看是否存在待隔离页。

      nvidia-smi -q -d PAGE_RETIREMENT

      如果Pending Page Blacklist 为No,说明当前已无待隔离页。

  • 方法二:
    1. 执行以下命令,重启服务器。

      reboot

    2. 执行以下命令,查看是否存在待隔离页。

      nvidia-smi -q -d PAGE_RETIREMENT

      如果Pending Page Blacklist 为No,说明当前已无待隔离页。