更新时间:2026-06-30 GMT+08:00
分享

创建仿真强化学习作业

前提条件

已准备仿真强化学习模型。

创建仿真强化学习作业

  1. 在左侧菜单栏选择“模型开发 > 强化学习”,进入“强化学习”页面。

    如果是首次操作,请务必仔细查看新手引导,有利于后续操作的便利性。

  2. 在页面右上角单击“创建仿真强化学习作业”,进入“创建仿真强化学习作业”页面。
  3. 请按照页面提示配置仿真强化学习作业参数。

    表1 仿真强化学习作业参数

    参数

    说明

    基础信息

    作业名称

    请输入自定义强化学习作业名称,推荐与实际作业相关。

    作业名称是由中文、数字、字母、下划线(_)、连字符(-)、点(.)、斜线(/)组成,输入长度范围为3~64个字符。

    描述

    请输入自定义强化学习作业描述,通过此描述可以清晰了解作业目的、场景等信息。

    描述内容长度不能超过512个字符。

    作业配置

    模型

    请按照实际需要选择模型,具体操作均可参见选择模型

    • 具身广场-模型,系统预置的模型,该模型用于仿真强化场景。
    • 空间资产-模型,强化学习作业最终产生的模型,该模型保存在CloudRobo的“空间资产 > 模型”(即自定义模型)。

    选择模型后,页面会显示模型的任务集、参数配置、资源配置、训练产物参数,请按照后续参数说明填写。

    任务集

    按照实际,选择所需的任务集。

    • LIBERO-Spatial

      空间关系推理任务集,该任务集专注于机器人处理物体间的空间几何关系,要求智能体理解如“...之间”、“...之上”、“...旁边”等方位指令,旨在提升模型对环境拓扑结构的精准感知与精细操作能力。

    • LIBERO-Object

      物体属性泛化任务集,强调对不同几何形状和类别物体的操作,通过引入具有差异化物理属性的抓取目标,考察策略在面对多样化物体时的泛化性能。

    • LIBERO-Goal

      语义目标理解任务集,侧重于在相同场景下完成不同的语义目标,通过多样的自然语言指令引导、测试机器人理解和执行不同目的动作的能力。

    • LIBERO-10

      长序列组合操作任务集,具有代表性的长程操作任务,任务来自于不同场景,涉及复合操作,用来评估机器人执行复杂、长步骤操作的能力。

    参数配置

    配置方式

    按照实际,选择需要的配置方式。

    • 快速配置

      先选择强化策略,再查看系统已预填强化学习的关键参数,请按照需求小幅度调整参数值。

    • YAML配置

      通过编辑器直接修改YAML配置,支持全部参数的精细调控。

    请参照官网说明配置上述两种方式涉及的参数,具体请参见YAML配置

    如果不需要已配置的参数数值,可以单击“恢复默认参数”,将参数数值恢复至系统默认值。

    强化策略

    “配置方式”选择“快速配置”时,显示此参数。

    按照实际,选择需要的强化策略。

    • PPO

      对每次学习的更新幅度合理设限,平滑训练轨迹,避免剧烈波动。

    • GRPO

      基于多策略的优劣对标筛选最优解,兼顾性能表现与资源消耗的双重优化。

    资源配置

    资源池类型

    请按照实际需要选择资源池。

    • 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建专属资源池,然后在开发过程中选择此专属资源池。专属资源池的创建可通过订阅CloudRobo具身智能开发平台基础版或专业版纳管资源完成。不同方式创建的专属资源池应用场景有所不同,请以实际界面展示为准。
    • 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。用户下发训练作业、部署模型、使用开发环境实例等情况下,均可以使用公共资源池完成。开通账号并申请公测后即可使用CloudRobo的公共资源池。

    实例规格

    下拉选择资源池类型对应的实例规格。

    实例数

    按照实际,输入实例数值。

    训练产物

    强化学习作业的最终训练产物将发布至CloudRobo的“空间资产 > 模型”(即自定义模型),且该模型均支持部署和二次强化学习。

    保存方式

    请按照实际选择训练产物的保存方式。

    • 选择“新模型”,系统可以自定义模型名称,最终会保存为新模型。
    • 选择“已有模型新版本”,下拉框显示当“保存方式”为“新模型”时保存的模型,请按照实际需求在下拉框选择模型。

    模型名称

    请输入或选择强化学习后的模型名称。

    模型名称是由中文、数字、字母、下划线(_)、连字符(-)、点(.)、斜线(/)组成,输入长度范围为3~64个字符。

    模型版本号

    请输入模型版本号。

    模型版本号是以字母或数字开头,仅支持大小写字母、数字、连字符(-)、点号(.)、下划线(_),输入长度范围为2~128个字符。

    保存方式为“已有模型新版本”时,需注意:

    • 模型版本号不能与该模型已有的版本号重复。
    • 未填写版本号时,模型版本号会自动新增一个版本。

    模型类型

    系统自动匹配模型类型,不支持修改。

    新模型的模型类型与源模型的模型类型保持一致。

    模型优势技能

    “模型类型”为“操作模型”时,显示此参数。

    模型优势技能是模型经过强化学习后,在各项能力中表现相对优异、可作为该模型优势能力的技能。

    单击“添加”,在技能列表编辑技能名称、Prompt,最多可添加50个技能。

    • 技能名称

      按照实际技能输入技能名称,名称仅支持中文、大小写字母、数字、连字符(-)、下划线(_),长度范围为1~64个字符。

    • Prompt

      模型技能的提示词,用户输入的指令或问题,用于引导模型生成特定内容或执行特定任务。

      该提示词长度范围在1~1024个字符。

    图1 编辑模型优势技能示例

    如果不需要某技能,请单击技能对应的,即可删除技能。

    仅执行模型优势技能

    “模型优势技能”添加技能后,会显示此参数。

    按照实际开启仅执行模型优势技能。

    • 勾选,代表开启仅执行模型优势技能,部署后的模型服务在智能体调试时仅能执行当前的模型优势技能
    • 不勾选,代表未开启仅执行模型优势技能,部署后的模型服务在智能体调试时默认可执行模型的全部技能

  4. (可选)所有参数配置完成后,仍需要继续编辑,但当前不创建作业,可以单击“保存为草稿”,将该作业保存为草稿。
  5. 所有参数配置完成后,单击“立即创建”,即开始创建仿真强化学习作业,该作业状态为“创建中”。
  6. 成功创建仿真强化学习作业后,系统会自动开始运行该强化学习作业,该作业状态为“运行中”,作业运行完成后的状态为“已完成”。

    • 如果仿真强化学习作业所选的资源规格紧张,该作业需要排队等待开始运行,此时作业状态为“等待中”。
    • 如果仿真强化学习作业出现“异常”或者“失败”,请单击作业名称,进入详情页面查看事件。

选择模型

  1. 在模型处单击“选择模型”,页面右侧显示“选择模型”界面。

    图2 选择模型

    界面上展示所有支持强化学习能力的模型,更多模型信息请前往具身广场查看。

  2. 在左侧区域选择目标模型,并在右侧选择模型版本。

    仅支持选择1个模型版本。

    图3 选择模型

  3. 完成后单击“确定”,页面会显示模型卡片。

    如果不满意此次选择的模型,请直接单击模型卡片,在界面上按照步骤2选择其他模型。

    图4 模型卡片示例

相关文档