更新时间:2024-10-16 GMT+08:00
常见训练报错与解决方案
read example failed报错
- 报错原因:模型训练过程中,训练日志出现“read example failed”报错,表示当前数据集格式不满足训练要求。
- 解决方案:请参考数据格式要求校验数据集格式。
图1 read example failed报错
no such file or directory报错
- 报错原因:模型训练过程中,训练日志出现“no such file or directory”报错,表示当前数据集格式、数据命名、数据存储路径不满足训练要求。
- 解决方案:请参考数据格式要求校验数据集格式。
请检查数据集路径是否设置正确。
图2 no such file or directory报错
The dataset size is too small报错
- 报错原因:模型训练过程中,训练日志出现“The dataset size is too small”报错,表示数据量太少,拼接到模型要求长度后,条数不满足一次训练下沉。
- 解决方案:请增大数据集大小或者把epochs设大,保证日志中的Sink_num > 0。
图3 The dataset size is too small
Decrypt failed报错
- 报错原因:模型训练过程中,训练日志出现“Decrypt failed”报错,表示解密失败。
- 解决方案:请联系华为云排查环境变量ak、sk。
图4 Decrypt failed报错
父主题: 训练盘古大模型