更新时间:2024-08-29 GMT+08:00
分享

常见训练报错与解决方案

read example failed报错

  • 报错原因:模型训练过程中,训练日志出现“read example failed”报错,表示当前数据集格式不满足训练要求。
  • 解决方案:请参考数据格式要求校验数据集格式。
图1 read example failed报错

no such file or directory报错

  • 报错原因:模型训练过程中,训练日志出现“no such file or directory”报错,表示当前数据集格式、数据命名、数据存储路径不满足训练要求。
  • 解决方案:请参考数据格式要求校验数据集格式。

请检查数据集路径是否设置正确。

图2 no such file or directory报错

The dataset size is too small

  • 报错原因:模型训练过程中,训练日志出现“The dataset size is too small”报错,表示数据量太少,拼接到模型要求长度后,条数不满足一次训练下沉。
  • 解决方案:请增大数据集大小或者把epochs设大,保证日志中的Sink_num > 0。
图3 The dataset size is too small

Decrypt failed

  • 报错原因:模型训练过程中,训练日志出现“Decrypt failed”报错,表示解密失败。
  • 解决方案:请联系华为云排查环境变量ak、sk。
图4 Decrypt failed报错

相关文档