在ModelArts Studio(MaaS)创建训练任务,显示创建失败
问题现象
创建训练任务时,选择Qwen2.5-7B、Qwen2.5-14B、Qwen2.5-32B、Qwen2.5-72B-1K或者Qwen2-VL-7B模型,创建训练任务失败。
关键日志报错(出现以下任意报错):
- 报错1:
[INFO|trainer.py:2278] 2025-01-09 20:49:47,170 >> Will skip the first 5 epochs then the first 0 batches
- 报错2:
[rank0]: RuntimeError: Cannot find sufficient samples, consider increasing dataset size.
原因分析
数据集过少,导致训练失败。

其中,增量预训练会packing,将短sample拼成seq_len长度进行训练,因此原数据条数多不意味着处理后samples多。
问题影响
训练失败或者训练结果与预期不符。
处理方法
增加数据集数量。