精度数据采集FAQ
fsdp采集update_actor数据时 TrainingState.IDLE 报错
问题现象:当调用fsdp后端训练且 actor_train_dump=True ,level=L0 时,出现如下报错

原因:msprobe工具侧 与fsdp 的patch 存在冲突,工具侧下一版本将修复
临时解决方案: msprobe8.2.0工具侧三方库以下代码回退(绿->红)

fsdp采集L1数据时 doesn't apply to a 'list' object 异常
问题现象:当调用fsdp后端训练 且 level=L1 时,如反复抛出如下异常,且无法落盘tensor数据,但训练仍在执行。


原因:编译或动态图追踪引起的。VeRL训练时,默认 actor_rollout_ref.actor.use_torch_compile: false,禁止使用TorchCompile编译。
解决方案: 添加禁止TorchDynamo环境变量
export TORCHDYNAMO_DISABLE=1
注:除fsdp+L1采集场景,其他均可 unset TORCHDYNAMO_DISABLE