更新时间:2026-06-29 GMT+08:00
分享

强化学习概述

目前,视觉-语言-动作(VLA)模型已展现出具身人工智能(embodied AI)的巨大潜力。然而,主要通过监督微调(SFT)进行训练的VLA,会在分布偏移下容易受到误差的影响,限制其泛化能力。现有研究已表明,SFT倾向于记忆训练数据,强化学习(RL)方法可以缓解数据缺少的问题,并显著提高分布外能力,因此,CloudRobo集成强化学习能力来缓解模型训练数据缺少问题,在SFT预训练模型基础上,进一步提升模型效果。

目前,CloudRobo支持仿真强化学习能力。

仿真强化学习

基于系统预置的仿真强化模型、策略、任务集等信息配置仿真强化学习作业,成功创建仿真强化作业后,系统会自动开始运行,全程无需人工操作,完成后可前往界面查看运行结果,该作业会将输出的模型文件、日志等统一保存至模型文件(即训练产物),以便于后续复用与部署

具体操作请参见创建仿真强化学习作业

相关文档