更新时间:2024-08-15 GMT+08:00
如何处理ECC ERROR:存在待隔离页问题
问题描述
- 业务调度到某个GPU节点后,发现业务异常,调度到其他节点时正常。
- 某台虚拟机显存使用率突然降低。
判断方式
- 执行以下命令,查看显卡是否存在ecc error。
- 如果1的回显结果中volatile Uncorr. ECC下ecc error > 0,执行以下命令,查看该GPU卡是否存在待隔离页。
nvidia-smi -q -i &.{gpu_id} -d PAGE_RETIREMEN
回显结果中出现No表示不存在待隔离页。
- 如果1的回显结果中volatile Uncorr. ECC下ecc error = 0,执行以下命令,查看所有的卡是否存在待隔离页。
nvidia-smi -q -d PAGE_RETIREMENT
- 如果3的回显结果中Pending Page Blacklist为Yes,说明存在待隔离页,需要重新加载驱动去隔离。
父主题: 非硬件故障自恢复处理方法