创建仿真强化学习作业

前提条件

已准备仿真强化学习模型。

创建仿真强化学习作业

在左侧菜单栏选择“模型开发 > 强化学习”，进入“强化学习”页面。

如果是首次操作，请务必仔细查看新手引导，有利于后续操作的便利性。
在页面右上角单击“创建仿真强化学习作业”，进入“创建仿真强化学习作业”页面。

请按照页面提示配置仿真强化学习作业参数。

表1 仿真强化学习作业参数
参数	说明
基础信息
作业名称	请输入自定义强化学习作业名称，推荐与实际作业相关。作业名称是由中文、数字、字母、下划线（_）、连字符（-）、点（.）、斜线（/）组成，输入长度范围为3~64个字符。
描述	请输入自定义强化学习作业描述，通过此描述可以清晰了解作业目的、场景等信息。描述内容长度不能超过512个字符。
作业配置
模型	请按照实际需要选择模型，具体操作均可参见选择模型。具身广场-模型，系统预置的模型，该模型用于仿真强化场景。空间资产-模型，强化学习作业最终产生的模型，该模型保存在CloudRobo的“空间资产 > 模型”（即自定义模型）。选择模型后，页面会显示模型的任务集、参数配置、资源配置、训练产物参数，请按照后续参数说明填写。
任务集	按照实际，选择所需的任务集。 LIBERO-Spatial 空间关系推理任务集，该任务集专注于机器人处理物体间的空间几何关系，要求智能体理解如“...之间”、“...之上”、“...旁边”等方位指令，旨在提升模型对环境拓扑结构的精准感知与精细操作能力。 LIBERO-Object 物体属性泛化任务集，强调对不同几何形状和类别物体的操作，通过引入具有差异化物理属性的抓取目标，考察策略在面对多样化物体时的泛化性能。 LIBERO-Goal 语义目标理解任务集，侧重于在相同场景下完成不同的语义目标，通过多样的自然语言指令引导、测试机器人理解和执行不同目的动作的能力。 LIBERO-10 长序列组合操作任务集，具有代表性的长程操作任务，任务来自于不同场景，涉及复合操作，用来评估机器人执行复杂、长步骤操作的能力。
参数配置
配置方式	按照实际，选择需要的配置方式。快速配置先选择强化策略，再查看系统已预填强化学习的关键参数，请按照需求小幅度调整参数值。 YAML配置通过编辑器直接修改YAML配置，支持全部参数的精细调控。请参照官网说明配置上述两种方式涉及的参数，具体请参见YAML配置。如果不需要已配置的参数数值，可以单击“恢复默认参数”，将参数数值恢复至系统默认值。
强化策略	当“配置方式”选择“快速配置”时，显示此参数。按照实际，选择需要的强化策略。 PPO 对每次学习的更新幅度合理设限，平滑训练轨迹，避免剧烈波动。 GRPO 基于多策略的优劣对标筛选最优解，兼顾性能表现与资源消耗的双重优化。
资源配置
资源池类型	请按照实际需要选择资源池。专属资源池：专属资源池不与其他用户共享，资源更可控。在使用专属资源池之前，您需要先创建专属资源池，然后在开发过程中选择此专属资源池。专属资源池的创建可通过订阅CloudRobo具身智能开发平台基础版或专业版或纳管资源完成。不同方式创建的专属资源池应用场景有所不同，请以实际界面展示为准。公共资源池：公共资源池提供公共的大规模计算集群，根据用户作业参数分配使用，资源按作业隔离。用户下发训练作业、部署模型、使用开发环境实例等情况下，均可以使用公共资源池完成。开通账号并申请公测后即可使用CloudRobo的公共资源池。
实例规格	下拉选择资源池类型对应的实例规格。
实例数	按照实际，输入实例数值。
训练产物强化学习作业的最终训练产物将发布至CloudRobo的“空间资产 > 模型”（即自定义模型），且该模型均支持部署和二次强化学习。
保存方式	请按照实际选择训练产物的保存方式。选择“新模型”，系统可以自定义模型名称，最终会保存为新模型。选择“已有模型新版本”，下拉框显示当“保存方式”为“新模型”时保存的模型，请按照实际需求在下拉框选择模型。
模型名称	请输入或选择强化学习后的模型名称。模型名称是由中文、数字、字母、下划线（_）、连字符（-）、点（.）、斜线（/）组成，输入长度范围为3~64个字符。
模型版本号	请输入模型版本号。模型版本号是以字母或数字开头，仅支持大小写字母、数字、连字符（-）、点号（.）、下划线（_），输入长度范围为2~128个字符。当“保存方式”为“已有模型新版本”时，需注意：模型版本号不能与该模型已有的版本号重复。未填写版本号时，模型版本号会自动新增一个版本。
模型类型	系统自动匹配模型类型，不支持修改。新模型的模型类型与源模型的模型类型保持一致。
模型优势技能	当“模型类型”为“操作模型”时，显示此参数。模型优势技能是模型经过强化学习后，在各项能力中表现相对优异、可作为该模型优势能力的技能。单击“添加”，在技能列表编辑技能名称、Prompt，最多可添加50个技能。技能名称按照实际技能输入技能名称，名称仅支持中文、大小写字母、数字、连字符（-）、下划线（_），长度范围为1~64个字符。 Prompt 模型技能的提示词，用户输入的指令或问题，用于引导模型生成特定内容或执行特定任务。该提示词长度范围在1~1024个字符。图1 编辑模型优势技能示例如果不需要某技能，请单击技能对应的，即可删除技能。
仅执行模型优势技能	当“模型优势技能”添加技能后，会显示此参数。按照实际开启仅执行模型优势技能。勾选，代表开启仅执行模型优势技能，部署后的模型服务在智能体调试时仅能执行当前的模型优势技能。不勾选，代表未开启仅执行模型优势技能，部署后的模型服务在智能体调试时默认可执行模型的全部技能。

（可选）所有参数配置完成后，仍需要继续编辑，但当前不创建作业，可以单击“保存为草稿”，将该作业保存为草稿。
所有参数配置完成后，单击“立即创建”，即开始创建仿真强化学习作业，该作业状态为“创建中”。
成功创建仿真强化学习作业后，系统会自动开始运行该强化学习作业，该作业状态为“运行中”，作业运行完成后的状态为“已完成”。
- 如果仿真强化学习作业所选的资源规格紧张，该作业需要排队等待开始运行，此时作业状态为“等待中”。
- 如果仿真强化学习作业出现“异常”或者“失败”，请单击作业名称，进入详情页面查看事件。