文档首页/ AI开发平台ModelArts/ 故障排除/ 训练作业/ 业务代码问题/ 日志出现ECC错误,导致训练作业失败
更新时间:2024-04-11 GMT+08:00

日志出现ECC错误,导致训练作业失败

问题现象

训练作业日志运行出现如下报错:RuntimeError: CUDA error: uncorrectable ECC error encountered

原因分析

由于ECC错误,导致作业运行失败。

处理方法

当ECC错误且计数超过64时,系统会自动隔离故障节点,重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死,请联系技术支持处理。