更新时间:2025-11-19 GMT+08:00
分享

精度数据采集FAQ

FSDP采集update_actor数据时 TrainingState.IDLE 报错

问题现象:当调用FSDP后端训练且 actor_train_dump=True ,level=L0 时,出现如下报错

原因:msprobe工具侧 与FSDP的patch 存在冲突,工具侧master分支已修复。

解决方案:master分支拉取最新代码进行编译安装 ,从源码安装msprobe

  pip uninstall mindstudio_probe
  git clone https://gitcode.com/Ascend/mstt.git
  cd mstt/debug/accuracy_tools
  pip install setuptools wheel
  python setup.py bdist_wheel [--include-mod=[adump]] [--no-check]
  cd ./dist
  pip install ./mindstudio_probe*.whl

VL模型 FSDP采集update_citic数据时 #0'grad_out' 报错

问题现象:当使用VL模型调用FSDP后端训练且 critic_train_dump=True 时,出现如下报错:

原因:msprobe工具侧与FSDP的patch存在冲突,工具侧master分支已修复。

解决方案:同上

FSDP采集L1数据时 doesn't apply to a 'list' object 异常

问题现象:当调用FSDP后端训练 且 level=L1 时,如反复抛出如下异常,且无法落盘tensor数据,但训练仍在执行。

原因:编译或动态图追踪引起的。VeRL训练时,默认 actor_rollout_ref.actor.use_torch_compile: false,禁止使用TorchCompile编译。

解决方案: 添加禁止TorchDynamo环境变量。

export TORCHDYNAMO_DISABLE=1

注:除FSDP+L1采集场景,其他均可 unset TORCHDYNAMO_DISABLE

相关文档