创建模型评测任务(任务集)
本章节指导用户如何创建任务集模型评测任务,需要选择目标模型、任务集,并按照任务目标配置任务参数等信息,成功创建任务后系统会自动启动评测任务,无需人工启动评测任务。
操作须知
推荐采用LIBERO的训练方式完成(本次评测任务选择)评测模型训练,包括图片预处理、state预处理等。
输入输出规范:
Observations: observation.state — 8-dim proprioceptive features (eef position, axis-angle orientation, gripper qpos) observation.images.image — main camera view (agentview_image), HWC uint8[256,256,3] observation.images.image2 — wrist camera view (robot0_eye_in_hand_image), HWC uint8[256,256,3] Actions: Continuous control in Box(-1, 1, shape=(7,)) — 6D end-effector delta + 1D gripper
前提条件
- 已准备评测模型(已部署且运行中)。
- 使用系统提供的公共资源或者使用自行创建的专属资源。
约束限制
任务集评测只支持LeRobot_WALL-OSS-Base、RLinf-Pi0-LIBERO-Spatial-Object-Goal-SFT、RLinf-Pi0-LIBERO-Long-SFT、RLinf-Pi05-LIBERO-SFT模型,其他模型待上线。
创建评测任务(任务集)
- 在左侧菜单栏选择“模型开发 > 模型评测”,进入“模型评测”页面。
如果是首次操作,请务必仔细查看新手引导,有利于后续操作的便利性。
- 在页面右上角单击“创建任务”,进入“创建模型评测任务”页面。
- 请按照页面提示配置评测任务参数。
表1 评测任务参数 参数
说明
基本信息
任务名称
请输入评测任务名称,推荐与实际要评测的模型服务相关。
任务名称是由中文、数字、字母、下划线(_)、连字符(-)、点(.)、斜线(/)组成,输入长度范围为3~64个字符。
描述(可选)
请输入自定义评测任务描述,通过此描述可以清晰了解任务目的、场景等信息。
描述内容长度不能超过512个字符。
评测对象
评测模型
按照需要选择要评测的模型服务,仅支持选择1个评测模型,主要有具身广场(系统预置)、空间资产(自定义模型)这两类模型服务。
具体操作请参见选择评测模型。
资源配置
资源池类型
请按照实际需要选择资源池。
- 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建专属资源池,然后在开发过程中选择此专属资源池。专属资源池的创建可通过订阅CloudRobo具身智能开发平台基础版或专业版或纳管资源完成。不同方式创建的专属资源池应用场景有所不同,请以实际界面展示为准。
- 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。用户下发训练作业、部署模型、使用开发环境实例等情况下,均可以使用公共资源池完成。开通账号并申请公测后即可使用CloudRobo的公共资源池。
评测配置
评测类型
选择“任务集测评”。
任务类型
当前仅支持Libero任务集,该任务有4种不同的任务类型,每个任务类型有10个子任务。
- libero_spatial
空间关系推理任务集,该任务集专注于机器人处理物体间的空间几何关系,要求智能体理解如“...之间”、“...之上”、“...旁边”等方位指令,旨在提升模型对环境拓扑结构的精准感知与精细操作能力。
- libero_object
物体属性泛化任务集,强调对不同几何形状和类别物体的操作,通过引入具有差异化物理属性的抓取目标,考察策略在面对多样化物体时的泛化性能。
- libero_goal
语义目标理解任务集,侧重于在相同场景下完成不同的语义目标,通过多样的自然语言指令引导、测试机器人理解和执行不同目的动作的能力。
- libero_10
长序列组合操作任务集,具有代表性的长程操作任务,任务来自于不同场景,涉及复合操作,用来评估机器人执行复杂、长步骤操作的能力。
单击Libero任务卡片,页面右侧弹出任务类型界面,显示所有子任务,按照实际勾选子任务,默认选择全部子任务。
图1 任务类型示例
参数配置
按照任务需求配置参数,参数说明请参见“Libero任务参数配置”表格。
如果不需要已配置的参数数值,可以单击“恢复默认参数”,将参数数值恢复至系统默认值。
- 完成后单击“立即创建”,即可开始创建评测任务,该任务状态为“资源准备中”。
- 成功创建评测任务后,系统会自动开始执行评测任务,该任务状态为“执行中”,任务完成后的状态为“已完成”。
Libero任务参数配置
| 参数名称 | 数值 | 说明 |
|---|---|---|
| n_action_step | 默认为10,不支持修改。 | 每次推理的n_action_step。 |
| episodes | 默认为10,取值范围在1~50。 | 每个任务跑的测试次数。 |
| libero_object | 默认为280,取值范围在1~600。 | object套件的单次评测中最大尝试步数配置。 |
| libero_goal | 默认为300,取值范围在1~600。 | goal套件的单次评测中最大尝试步数配置。 |
| libero_spatial | 默认为220,取值范围在1~600。 | spatial套件的单次评测中最大尝试步数配置。 |
| libero_10 | 默认为520,取值范围在1~600。 | libero_10套件的单次评测中最大尝试步数配置。 |
选择评测模型
- 在评测模型处单击“选择模型服务”,页面右侧显示“选择模型服务”界面。 图2 选择模型服务
界面上仅展示状态为运行中的模型服务,如需使用其他模型服务,请前往模型部署页面中修改服务状态或部署新模型服务。
- 按照实际选择“具身广场-模型”或“空间资产-模型”页签。
界面默认显示所有模型,主要有感知模型、导航模型、操作模型、规划模型,可以按照属性类型或模型名称筛选目标模型服务。
- 在左侧区域选择目标模型服务,并在右侧选择已部署的模型服务版本。
仅支持选择1个模型服务版本。
图3 选择模型服务示例
- 完成后单击“确定”,页面会显示模型服务卡片。
如果不满意此次选择的模型服务,请直接单击模型服务卡片,在界面上按照2~3选择其他模型服务。
图4 模型服务卡片