精度数据采集FAQ
FSDP采集update_actor数据时 TrainingState.IDLE 报错
问题现象:当调用FSDP后端训练且 actor_train_dump=True ,level=L0 时,出现如下报错。

原因:msprobe工具侧 与FSDP的patch 存在冲突,工具侧master分支已修复。
解决方案:master分支拉取最新代码进行编译安装 ,从源码安装msprobe
pip uninstall mindstudio_probe git clone https://gitcode.com/Ascend/mstt.git cd mstt/debug/accuracy_tools pip install setuptools wheel python setup.py bdist_wheel [--include-mod=[adump]] [--no-check] cd ./dist pip install ./mindstudio_probe*.whl
VL模型 FSDP采集update_citic数据时 #0'grad_out' 报错
问题现象:当使用VL模型调用FSDP后端训练且 critic_train_dump=True 时,出现如下报错:

原因:msprobe工具侧与FSDP的patch存在冲突,工具侧master分支已修复。
解决方案:同上
FSDP采集L1数据时 doesn't apply to a 'list' object 异常
问题现象:当调用FSDP后端训练 且 level=L1 时,如反复抛出如下异常,且无法落盘tensor数据,但训练仍在执行。


原因:编译或动态图追踪引起的。VeRL训练时,默认 actor_rollout_ref.actor.use_torch_compile: false,禁止使用TorchCompile编译。
解决方案: 添加禁止TorchDynamo环境变量。
export TORCHDYNAMO_DISABLE=1
注:除FSDP+L1采集场景,其他均可 unset TORCHDYNAMO_DISABLE