更新时间:2025-10-22 GMT+08:00
分享

精度数据采集FAQ

fsdp采集update_actor数据时 TrainingState.IDLE 报错

问题现象:当调用fsdp后端训练且 actor_train_dump=True ,level=L0 时,出现如下报错

原因:msprobe工具侧 与fsdp 的patch 存在冲突,工具侧下一版本将修复

临时解决方案: msprobe8.2.0工具侧三方库以下代码回退(绿->红)

fsdp采集L1数据时 doesn't apply to a 'list' object 异常

问题现象:当调用fsdp后端训练 且 level=L1 时,如反复抛出如下异常,且无法落盘tensor数据,但训练仍在执行。

原因:编译或动态图追踪引起的。VeRL训练时,默认 actor_rollout_ref.actor.use_torch_compile: false,禁止使用TorchCompile编译。

解决方案: 添加禁止TorchDynamo环境变量

export TORCHDYNAMO_DISABLE=1

注:除fsdp+L1采集场景,其他均可 unset TORCHDYNAMO_DISABLE

相关文档