创建仿真强化学习作业
前提条件
已准备仿真强化学习模型。
创建仿真强化学习作业
- 在左侧菜单栏选择“模型开发 > 强化学习”,进入“强化学习”页面。
如果是首次操作,请务必仔细查看新手引导,有利于后续操作的便利性。
- 在页面右上角单击“创建仿真强化学习作业”,进入“创建仿真强化学习作业”页面。
- 请按照页面提示配置仿真强化学习作业参数。
表1 仿真强化学习作业参数 参数
说明
基础信息
作业名称
请输入自定义强化学习作业名称,推荐与实际作业相关。
作业名称是由中文、数字、字母、下划线(_)、连字符(-)、点(.)、斜线(/)组成,输入长度范围为3~64个字符。
描述
请输入自定义强化学习作业描述,通过此描述可以清晰了解作业目的、场景等信息。
描述内容长度不能超过512个字符。
作业配置
模型
请按照实际需要选择模型,具体操作均可参见选择模型。
- 具身广场-模型,系统预置的模型,该模型用于仿真强化场景。
- 空间资产-模型,强化学习作业最终产生的模型,该模型保存在CloudRobo的“空间资产 > 模型”(即自定义模型)。
选择模型后,页面会显示模型的任务集、参数配置、资源配置、训练产物参数,请按照后续参数说明填写。
任务集
按照实际,选择所需的任务集。
- LIBERO-Spatial
空间关系推理任务集,该任务集专注于机器人处理物体间的空间几何关系,要求智能体理解如“...之间”、“...之上”、“...旁边”等方位指令,旨在提升模型对环境拓扑结构的精准感知与精细操作能力。
- LIBERO-Object
物体属性泛化任务集,强调对不同几何形状和类别物体的操作,通过引入具有差异化物理属性的抓取目标,考察策略在面对多样化物体时的泛化性能。
- LIBERO-Goal
语义目标理解任务集,侧重于在相同场景下完成不同的语义目标,通过多样的自然语言指令引导、测试机器人理解和执行不同目的动作的能力。
- LIBERO-10
长序列组合操作任务集,具有代表性的长程操作任务,任务来自于不同场景,涉及复合操作,用来评估机器人执行复杂、长步骤操作的能力。
参数配置
配置方式
按照实际,选择需要的配置方式。
- 快速配置
先选择强化策略,再查看系统已预填强化学习的关键参数,请按照需求小幅度调整参数值。
- YAML配置
通过编辑器直接修改YAML配置,支持全部参数的精细调控。
请参照官网说明配置上述两种方式涉及的参数,具体请参见YAML配置。
如果不需要已配置的参数数值,可以单击“恢复默认参数”,将参数数值恢复至系统默认值。
强化策略
当“配置方式”选择“快速配置”时,显示此参数。
按照实际,选择需要的强化策略。
- PPO
对每次学习的更新幅度合理设限,平滑训练轨迹,避免剧烈波动。
- GRPO
基于多策略的优劣对标筛选最优解,兼顾性能表现与资源消耗的双重优化。
资源配置
资源池类型
请按照实际需要选择资源池。
- 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建专属资源池,然后在开发过程中选择此专属资源池。专属资源池的创建可通过订阅CloudRobo具身智能开发平台基础版或专业版或纳管资源完成。不同方式创建的专属资源池应用场景有所不同,请以实际界面展示为准。
- 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。用户下发训练作业、部署模型、使用开发环境实例等情况下,均可以使用公共资源池完成。开通账号并申请公测后即可使用CloudRobo的公共资源池。
实例规格
下拉选择资源池类型对应的实例规格。
实例数
按照实际,输入实例数值。
训练产物
强化学习作业的最终训练产物将发布至CloudRobo的“空间资产 > 模型”(即自定义模型),且该模型均支持部署和二次强化学习。
保存方式
请按照实际选择训练产物的保存方式。
- 选择“新模型”,系统可以自定义模型名称,最终会保存为新模型。
- 选择“已有模型新版本”,下拉框显示当“保存方式”为“新模型”时保存的模型,请按照实际需求在下拉框选择模型。
模型名称
请输入或选择强化学习后的模型名称。
模型名称是由中文、数字、字母、下划线(_)、连字符(-)、点(.)、斜线(/)组成,输入长度范围为3~64个字符。
模型版本号
请输入模型版本号。
模型版本号是以字母或数字开头,仅支持大小写字母、数字、连字符(-)、点号(.)、下划线(_),输入长度范围为2~128个字符。
当“保存方式”为“已有模型新版本”时,需注意:
- 模型版本号不能与该模型已有的版本号重复。
- 未填写版本号时,模型版本号会自动新增一个版本。
模型类型
系统自动匹配模型类型,不支持修改。
新模型的模型类型与源模型的模型类型保持一致。
模型优势技能
当“模型类型”为“操作模型”时,显示此参数。
模型优势技能是模型经过强化学习后,在各项能力中表现相对优异、可作为该模型优势能力的技能。
单击“添加”,在技能列表编辑技能名称、Prompt,最多可添加50个技能。
- 技能名称
按照实际技能输入技能名称,名称仅支持中文、大小写字母、数字、连字符(-)、下划线(_),长度范围为1~64个字符。
- Prompt
模型技能的提示词,用户输入的指令或问题,用于引导模型生成特定内容或执行特定任务。
该提示词长度范围在1~1024个字符。
图1 编辑模型优势技能示例
如果不需要某技能,请单击技能对应的
,即可删除技能。仅执行模型优势技能
当“模型优势技能”添加技能后,会显示此参数。
按照实际开启仅执行模型优势技能。
- 勾选,代表开启仅执行模型优势技能,部署后的模型服务在智能体调试时仅能执行当前的模型优势技能。
- 不勾选,代表未开启仅执行模型优势技能,部署后的模型服务在智能体调试时默认可执行模型的全部技能。
- (可选)所有参数配置完成后,仍需要继续编辑,但当前不创建作业,可以单击“保存为草稿”,将该作业保存为草稿。
- 所有参数配置完成后,单击“立即创建”,即开始创建仿真强化学习作业,该作业状态为“创建中”。
- 成功创建仿真强化学习作业后,系统会自动开始运行该强化学习作业,该作业状态为“运行中”,作业运行完成后的状态为“已完成”。
- 如果仿真强化学习作业所选的资源规格紧张,该作业需要排队等待开始运行,此时作业状态为“等待中”。
- 如果仿真强化学习作业出现“异常”或者“失败”,请单击作业名称,进入详情页面查看事件。


