文档首页/ 魔坊(ModelArts)模型训推平台/ 最佳实践/ LLM大语言模型训练/ LLM大语言模型训练其它版本/ 主流开源大模型基于轻量算力集群适配AscendFactory NPU训练解决方案/ 常见错误原因和解决方法/ VeRL训练HCCL超时导致训练失败
更新时间:2025-11-19 GMT+08:00
VeRL训练HCCL超时导致训练失败
当VeRL训练场景下,在训练过程中报以下错误:
HCCL watchdog thread terminated with exception: [Rank 24] Watchdog caught collective operation timeout: WorkHCCL(SeqNum=6711, OpType=ALLGATHER, NumelIn=128, NumelOut=4096, Timeout(ms)=600000) ran for 600901 milliseconds before timing out
可尝试通过训练配置文件调大参数 actor_rollout_ref.nccl_timeout 的参数值规避。
父主题: 常见错误原因和解决方法