文档首页/魔坊(ModelArts)模型训推平台/最佳实践/LLM大语言模型训练/LLM大语言模型训练其它版本/主流开源大模型适配NPU的AscendFactory训练框架开发指导(6.5.908)/精度数据采集/精度数据采集FAQ
更新时间:2025-12-15 GMT+08:00
精度数据采集FAQ
fsdp采集update_actor数据时 TrainingState.IDLE 报错
问题现象:当调用fsdp后端训练且 actor_train_dump=True ,level=L0 时,出现如下报错

原因:msprobe工具侧 与fsdp 的patch 存在冲突,工具侧下一版本将修复
临时解决方案: msprobe8.2.0工具侧三方库以下代码回退(绿->红)

fsdp采集L1数据时 doesn't apply to a 'list' object 异常
问题现象:当调用fsdp后端训练 且 level=L1 时,如反复抛出如下异常,且无法落盘tensor数据,但训练仍在执行。


原因:编译或动态图追踪引起的。VeRL训练时,默认 actor_rollout_ref.actor.use_torch_compile: false,禁止使用TorchCompile编译。
解决方案: 添加禁止TorchDynamo环境变量
export TORCHDYNAMO_DISABLE=1
注:除fsdp+L1采集场景,其他均可 unset TORCHDYNAMO_DISABLE
父主题:精度数据采集

