文档首页/ 具身智能开发平台 CloudRobo/ 用户指南/ 模型开发/ 强化学习/ 强化学习概述

更新时间：2026-07-13 GMT+08:00

强化学习概述

目前视觉-语言-动作（VLA）模型已展现出具身人工智能（embodied AI）的巨大潜力。通过监督微调（SFT）进行训练的VLA，会在分布偏移下容易受到误差的影响，限制其泛化能力。现有研究已表明，SFT倾向于记忆训练数据，强化学习（RL）方法可以缓解数据缺少的问题，并显著提高分布外能力，因此，CloudRobo集成强化学习能力来缓解模型训练数据缺少问题，在SFT预训练模型基础上，进一步提升模型效果。

目前，CloudRobo支持仿真强化学习能力。

仿真强化学习

基于系统预置的仿真强化模型、策略、任务集等信息配置仿真强化学习作业，成功创建仿真强化作业后，系统会自动开始运行，全程无需人工操作，完成后可前往界面查看运行结果，该作业会将输出的模型文件、日志等统一保存至模型文件（即训练产物），以便于后续复用与部署。

具体操作请参见创建仿真强化学习作业。

父主题： 强化学习

上一篇：强化学习

下一篇：创建仿真强化学习作业

相关文档

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问