文档首页/
AI开发平台ModelArts/
最佳实践/
LLM大语言模型训练/
主流开源大模型基于Lite Cluster适配AscendFactory NPU训练解决方案/
常见错误原因和解决方法/
VeRL训练HCCL超时导致训练失败
更新时间:2025-10-22 GMT+08:00
VeRL训练HCCL超时导致训练失败
当VeRL训练场景下,在训练过程中报以下错误:
HCCL watchdog thread terminated with exception: [Rank 24] Watchdog caught collective operation timeout: WorkHCCL(SeqNum=6711, OpType=ALLGATHER, NumelIn=128, NumelOut=4096, Timeout(ms)=600000) ran for 600901 milliseconds before timing out
可尝试通过训练配置文件调大参数 actor_rollout_ref.nccl_timeout 的参数值规避。
父主题: 常见错误原因和解决方法