创建模型评测任务（任务集）

本章节指导用户如何创建任务集模型评测任务，需要选择目标模型、任务集，并按照任务目标配置任务参数等信息，成功创建任务后系统会自动启动评测任务，无需人工启动评测任务。

操作须知

推荐采用LIBERO的训练方式完成（本次评测任务选择）评测模型训练，包括图片预处理、state预处理等。

输入输出规范：

Observations:
  observation.state — 8-dim proprioceptive features (eef position, axis-angle orientation, gripper qpos)
  observation.images.image — main camera view (agentview_image), HWC uint8[256,256,3]
  observation.images.image2 — wrist camera view (robot0_eye_in_hand_image), HWC uint8[256,256,3]
Actions:
  Continuous control in Box(-1, 1, shape=(7,)) — 6D end-effector delta + 1D gripper

前提条件

已准备评测模型（已部署且运行中）。
使用系统提供的公共资源或者使用自行创建的专属资源。

创建评测任务（任务集）

在左侧菜单栏选择“模型开发 > 模型评测”，进入“模型评测”页面。

如果是首次操作，请务必仔细查看新手引导，有利于后续操作的便利性。
在页面右上角单击“创建任务”，进入“创建模型评测任务”页面。

请按照页面提示配置评测任务参数。

表1 评测任务参数
参数	说明
基本信息
任务名称	请输入评测任务名称，推荐与实际要评测的模型服务相关。任务名称是由中文、数字、字母、下划线（_）、连字符（-）、点（.）、斜线（/）组成，输入长度范围为3~64个字符。
描述（可选）	请输入自定义评测任务描述，通过此描述可以清晰了解任务目的、场景等信息。描述内容长度不能超过512个字符。
评测对象
评测模型	按照需要选择要评测的模型服务，仅支持选择1个评测模型，主要有具身广场（系统预置）、空间资产（自定义模型）这两类模型服务。具体操作请参见选择评测模型。
资源配置
资源池类型	请按照实际需要选择资源池。专属资源池：专属资源池不与其他用户共享，资源更可控。在使用专属资源池之前，您需要先创建专属资源池，然后在开发过程中选择此专属资源池。专属资源池的创建可通过订阅CloudRobo具身智能开发平台基础版或专业版或纳管资源完成。不同方式创建的专属资源池应用场景有所不同，请以实际界面展示为准。公共资源池：公共资源池提供公共的大规模计算集群，根据用户作业参数分配使用，资源按作业隔离。用户下发训练作业、部署模型、使用开发环境实例等情况下，均可以使用公共资源池完成。开通账号并申请公测后即可使用CloudRobo的公共资源池。
评测配置
评测类型	选择“任务集测评”。
任务类型	当前仅支持Libero任务集，该任务有4种不同的任务类型，每个任务类型有10个子任务。 libero_spatial 空间关系推理任务集，该任务集专注于机器人处理物体间的空间几何关系，要求智能体理解如“...之间”、“...之上”、“...旁边”等方位指令，旨在提升模型对环境拓扑结构的精准感知与精细操作能力。 libero_object 物体属性泛化任务集，强调对不同几何形状和类别物体的操作，通过引入具有差异化物理属性的抓取目标，考察策略在面对多样化物体时的泛化性能。 libero_goal 语义目标理解任务集，侧重于在相同场景下完成不同的语义目标，通过多样的自然语言指令引导、测试机器人理解和执行不同目的动作的能力。 libero_10 长序列组合操作任务集，具有代表性的长程操作任务，任务来自于不同场景，涉及复合操作，用来评估机器人执行复杂、长步骤操作的能力。单击Libero任务卡片，页面右侧弹出任务类型界面，显示所有子任务，按照实际勾选子任务，默认选择全部子任务。图1 任务类型示例
参数配置	按照任务需求配置参数，参数说明请参见“Libero任务参数配置”表格。如果不需要已配置的参数数值，可以单击“恢复默认参数”，将参数数值恢复至系统默认值。

完成后单击“立即创建”，即可开始创建评测任务，该任务状态为“资源准备中”。
成功创建评测任务后，系统会自动开始执行评测任务，该任务状态为“执行中”，任务完成后的状态为“已完成”。

Libero任务参数配置

表2 Libero任务参数配置
参数名称	数值	说明
n_action_step	默认为10，不支持修改。	每次推理的n_action_step。
episodes	默认为10，取值范围在1~50。	每个任务跑的测试次数。
libero_object	默认为280，取值范围在1~600。	object套件的单次评测中最大尝试步数配置。
libero_goal	默认为300，取值范围在1~600。	goal套件的单次评测中最大尝试步数配置。
libero_spatial	默认为220，取值范围在1~600。	spatial套件的单次评测中最大尝试步数配置。
libero_10	默认为520，取值范围在1~600。	libero_10套件的单次评测中最大尝试步数配置。

选择评测模型

在评测模型处单击“选择模型服务”，页面右侧显示“选择模型服务”界面。

图2 选择模型服务

界面上仅展示状态为运行中的模型服务，如需使用其他模型服务，请前往模型部署页面中修改服务状态或部署新模型服务。
按照实际选择“具身广场-模型”或“空间资产-模型”页签。
- 具身广场-模型，显示所有部署的系统预置模型服务，系统预置模型更多信息请参见具身广场。
- 空间资产-模型，显示所有部署的自定义模型服务，自定义模型更多信息请参见创建自定义模型。
界面默认显示所有模型，主要有感知模型、导航模型、操作模型、规划模型，可以按照属性类型或模型名称筛选目标模型服务。
在左侧区域选择目标模型服务，并在右侧选择已部署的模型服务版本。

仅支持选择1个模型服务版本。

图3 选择模型服务示例
完成后单击“确定”，页面会显示模型服务卡片。

如果不满意此次选择的模型服务，请直接单击模型服务卡片，在界面上按照2~3选择其他模型服务。

图4 模型服务卡片