基于操作类模型实现把笔放入笔筒的模型评测

场景介绍

模型评测是CloudRobo的主要功能之一，为待评测的模型提供评测场景和技能，并给出评测后的结果。本文档基于操作类模型实现把笔插入笔筒的模型评测指导。

前提条件

在模型部署服务中，已成功部署预置模型LeRobot-ACT-把笔插进笔筒-so101仿真，并且该模型当前处于“运行中”状态。

模型部署操作步骤

登录CloudRobo控制台。
在左侧导航栏单击“模型部署”，进入模型部署界面。并单击右上角的“部署模型服务”。
按照页面提示设置服务名称以及选择模型LeRobot-ACT-把笔插进笔筒-so101仿真，配置完参数信息后，单击“立即部署”，页面自动返回到模型部署列表页。

图1 创建模型部署服务
在模型部署列表页中，待任务状态由“部署中”变更为“运行中”，即为部署成功。即处于运行状态，可进行模型评测。

评测对象

来自具身广场的预置模型LeRobot-ACT-把笔插进笔筒-so101仿真。

评测流程

登录CloudRobo控制台。
进入模型评测服务。
1. 在左侧导航栏单击“模型评测”，进入模型评测界面。
2. 可单击“新手指引”按钮，根据相关指引进行操作。

创建评测任务。

单击模型评测界面右上角的“创建任务”按钮，进入创建模型评测任务界面。
在创建模型评测任务界面，填写基本信息，即任务名称和描述。
- 任务名称：“act_so101_pick_pen_evaluation”。
- 描述为：评测预置模型“LeRobot-ACT-把笔插进笔筒-so101仿真”。
在创建评测任务界面，选择评测场景，单击“+”号，选择“具身广场”，然后在搜索框搜索“so101”，会显示一系列与so101相关的场景，选择在模型部署中已经部署过且处于运行中的场景：LeRobot-ACT-把笔插进笔筒-so101仿真。
图2 选择评测场景

在创建评测任务界面，进行资源配置，配置信息如下：

表1 资源配置参数说明
参数	说明
资源配置
资源池类型	请按照实际需要选择资源池。专属资源池：专属资源池不与其他用户共享，资源更可控。在使用专属资源池之前，您需要先创建专属资源池，然后在开发过程中选择此专属资源池。不同方式创建的专属资源池应用场景有所不同，请以实际界面展示为准。公共资源池：公共资源池提供公共的大规模计算集群，根据用户作业参数分配使用，资源按作业隔离。用户下发训练作业、部署模型、使用开发环境实例等情况下，均可以使用公共资源池完成。开通账号并申请公测后即可使用CloudRobo的公共资源池。

在创建评测任务界面，进行评测配置。配置信息如下：

评测类型分为“单任务评测”和“任务集评测”。

表2 单任务评测参数说明
参数	说明
评测配置
评测类型	选择“单任务测评”。
任务场景资产	按照需要选择要评测的场景，仅支持选择1个场景资产，主要有具身广场（系统预置仿真资产）、空间资产（自定义仿真资产）这两类仿真资产。
评测次数	输入本次任务中模型评测次数。比如输入2，代表本次评测任务，需要执行模型评测2次。当“资源池类型”为“公共资源池”时，取值范围在1到10之间。当“资源池类型”为“专属资源池”时，取值范围在1到50之间。
超时时长（秒）	输入本次任务可以超出的时长。取值范围在0到300秒之间。评测过程中，可能会出现异常导致执行未正常结束，该时长将重置。
回放视频设置	评测模型服务时，可以选择性保存评测的回放视频，按照需求选择要保存的视频类型。执行失败勾选该选项表示会保存任务执行失败轮次的回放视频。执行成功-长耗时勾选该选项表示会保存任务执行成功且耗时过长轮次的回放视频。长耗时，视频耗时大于平均时间的75%（平均时间是同一评测任务下，执行成功的评测所需的总时间/评测成功次数）。执行成功-标准耗时勾选该选项表示会保存任务执行成功且耗时水平正常轮次的回放视频。请按照需求设定成功采样比例，当前评测任务会按照设定的比例抽样保存执行成功的视频。图3 成功采样比例

表3 任务集评测参数说明
参数	说明
评测配置
评测类型	选择“任务集测评”。
任务类型	当前仅支持Libero任务集，该任务有4种不同的任务类型，每个任务类型有10个子任务。 libero_spatial 空间关系推理任务集，该任务集专注于机器人处理物体间的空间几何关系，要求智能体理解如“...之间”、“...之上”、“...旁边”等方位指令，旨在提升模型对环境拓扑结构的精准感知与精细操作能力。 libero_object 物体属性泛化任务集，强调对不同几何形状和类别物体的操作，通过引入具有差异化物理属性的抓取目标，考察策略在面对多样化物体时的泛化性能。 libero_goal 语义目标理解任务集，侧重于在相同场景下完成不同的语义目标，通过多样的自然语言指令引导、测试机器人理解和执行不同目的动作的能力。 libero_10 长序列组合操作任务集，具有代表性的长程操作任务，任务来自于不同场景，涉及复合操作，用来评估机器人执行复杂、长步骤操作的能力。单击Libero任务卡片，页面右侧弹出任务类型界面，显示所有子任务，按照实际勾选子任务，默认选择全部子任务。图4 任务类型示例
参数配置	按照任务需求配置参数，参数说明请参见“Libero任务参数配置”表格。如果不需要已配置的参数数值，可以单击“恢复默认参数”，将参数数值恢复至系统默认值。

填写完参数后，单击右下角的“立即创建”，完成任务的创建并返回到模型评测界面。在任务列表里可以看到任务的状态为“资源准备中”。

进入仿真环境启动测评。
1. 当评测任务创建成功后，可以单击操作栏中的“仿真环境”按钮进入仿真环境。
  
  评测任务创建成功后，请在 30 分钟内进入仿真环境启动测评，超时后任务将自动终止。
  
  图5 进入仿真环境
  
  图6 查看仿真场景
2. 单击仿真环境左侧“技能测评”，然后单击“创建观测相机”，会自动创建默认位置的观测相机，观测相机可保存回放视频。
3. 单击仿真环境左侧的“启动测评”，在弹出的确认对话框单击“Yes”，即可开启模型评测。
  图7 启动测评
4. 在模型评测界面，单击“act_so101_pick_pen_evaluation”任务，进入详情页，可在详情页观察评测进度以及查看视频回放。
  此时，您已成功地实现了把笔插入笔筒中的评测任务。
  
  图8 评测任务详情示例