更新时间:2026-06-29 GMT+08:00
强化学习概述
目前,视觉-语言-动作(VLA)模型已展现出具身人工智能(embodied AI)的巨大潜力。然而,主要通过监督微调(SFT)进行训练的VLA,会在分布偏移下容易受到误差的影响,限制其泛化能力。现有研究已表明,SFT倾向于记忆训练数据,强化学习(RL)方法可以缓解数据缺少的问题,并显著提高分布外能力,因此,CloudRobo集成强化学习能力来缓解模型训练数据缺少问题,在SFT预训练模型基础上,进一步提升模型效果。
目前,CloudRobo支持仿真强化学习能力。
仿真强化学习
基于系统预置的仿真强化模型、策略、任务集等信息配置仿真强化学习作业,成功创建仿真强化作业后,系统会自动开始运行,全程无需人工操作,完成后可前往界面查看运行结果,该作业会将输出的模型文件、日志等统一保存至模型文件(即训练产物),以便于后续复用与部署。
具体操作请参见创建仿真强化学习作业。
父主题: 强化学习