更新时间:2024-03-04 GMT+08:00
日志出现ECC错误,导致训练作业失败
问题现象
训练作业日志运行出现如下报错:RuntimeError: CUDA error: uncorrectable ECC error encountered
原因分析
由于ECC错误,导致作业运行失败。
处理方法
当ECC错误且计数超过64时,系统会自动隔离故障节点,重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死,请联系技术支持处理。
父主题: 业务代码问题