更新时间:2025-10-22 GMT+08:00
分享

VeRL训练HCCL超时导致训练失败

当VeRL训练场景下,在训练过程中报以下错误:

HCCL watchdog thread terminated with exception: [Rank 24] Watchdog caught collective operation timeout: WorkHCCL(SeqNum=6711, OpType=ALLGATHER, NumelIn=128, NumelOut=4096, Timeout(ms)=600000) ran for 600901 milliseconds before timing out

可尝试通过训练配置文件调大参数 actor_rollout_ref.nccl_timeout 的参数值规避。

相关文档