更新时间:2026-06-30 GMT+08:00
分享

创建数据处理任务

场景描述

数据处理是数据准备的核心环节,负责将原始多模态数据(视觉、触觉、力觉、位姿)转化为高质量训练样本,解决时序失配、噪声干扰和仿真-现实差异问题。

约束限制

  • 计算资源限制:实时处理需高性能CPU,否则时延会降低响应速度。
  • 数据质量约束:传感器故障或标定误差会导致数据不可用(如LiDAR点云缺失>20%需丢弃)。
  • 存储与带宽瓶颈:原始多模态数据量庞大(1小时≈500GB),需分布式存储(如HDFS)和压缩算法。

前提条件

  • 用户已经开通了CloudRobo账号。
  • 用户已有一批数据在本地,或者使用平台预置的数据集。
  • 用户终端最低硬件配置,客户已采购数据处理的算力资源。

创建数据处理任务

  1. 登录CloudRobo控制台
  2. 在左侧菜单栏中单击“数据准备 > 数据处理”,进入数据处理页面。
  3. 单击右上角“创建任务”,进入创建页面,参照如下参数说明配置相关信息。

    表1 数据处理参数说明

    参数

    说明

    基础信息

    任务名称

    数据处理任务的名称。

    命名规则:名称是由中文、数字、字母、下划线(_)、连字符(-)、点(.)、斜线(/)组成,输入长度范围为3~64个字符。

    描述

    数据处理的简介。

    长度为512个字符以内。

    处理信息

    处理算法

    可选“预置算法”或“空间资产-算法”。

    • 预置算法:在下拉框中选择预置的算法,对数据进行处理。当预置算法选择“数据处理--逆运动学求解器 ”时,不支持RAY作业类型。
    • 空间资产-算法:在下拉框中选择自定义上传的算法,对数据进行处理。

    启动命令

    系统会根据您选择的处理算法类型自动填充命令行。

    • 选择“预置算法”不支持修改启动命令。
    • 选择“空间资产-算法”支持修改启动命令。
    说明:

    算法默认执行命令,无需修改,支持一键复制。

    环境变量

    根据业务需求设置环境变量的参数名称、值。

    • 单击“添加”,输入“参数名称”和“值”,添加环境变量信息,总数不超过90条。

      参数名称:请输入以字母或下划线开头的1~64个字符,仅支持字母、数字、连字符(-)、下划线(_)。

      值:请输入0~512个字符,支持中英文、字母、数字及特殊符号(_/\.,:@<>{}$-)。

    • 可单击操作栏的删除图标进行删除。
    说明:

    为了确保您的数据安全,在环境变量中,请勿输入敏感信息,如明文密码。

    运行环境配置

    挂载容器目录

    仅在处理算法选择“空间资产-算法”时有效。

    在输入框中输入挂载容器目录的路径。例:/tmp/dir1/dir2。

    作业类型

    可选“K8S作业”或“RAY作业”。

    资源池

    选择资源池类型,支持公共资源池和专属资源池。

    • 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建专属资源池,然后在开发过程中选择此专属资源池。专属资源池的创建可通过订阅CloudRobo具身智能开发平台基础版或专业版纳管资源完成。不同方式创建的专属资源池应用场景有所不同,请以实际界面展示为准。
    • 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。用户下发训练作业、部署模型、使用开发环境实例等情况下,均可以使用公共资源池完成。开通账号并申请公测后即可使用CloudRobo的公共资源池。

    worker资源规格

    • 当选择“K8S作业”时,只需要在下拉框中选择worker资源规格。
    • 当选择“RAY作业”时,需要选择head资源规格和worker资源规格。

    head资源规格

    当选择“RAY作业”时,需要先在下拉框中选择head资源规格。当选择“K8S作业”时,不涉及该配置项。

    workNum并发数量

    仅在作业类型选择“RAY作业”时有效。

    配置workNum并发数量。默认值为1。
    说明:

    并行处理数据的worker数量,数值越大处理速度越快,但消耗的集群CPU、内存、带宽资源越多,过高数值会导致集群资源不足、任务调度排队、甚至单个Worker资源不足导致处理失败。

    动态存储

    勾选“动态存储”后,可在数字微调器中输入值,默认为10。输入的值必须在10到32768之间。

    说明:
    1. K8s作业动态存储使用值 = 配置的动态存储容量。
    2. Ray作业动态存储使用值 = 配置的动态存储容量 ×(1 + workNum并发数量)。
    3. 当选择“专属资源池”时,不支持选择“动态存储”。

    数据配置

    数据集

    可选“空间资产-数据”或“对象存储服务OBS”。

    • 空间资产-数据:单击在弹出来的窗口中选择空间资产-数据。或者单击“创建数据集”,在弹出来的框中填写参数信息。可参考空间资产-创建数据资产章节。
    • 对象存储服务OBS:单击在弹出来的OBS存储数据路径下选择数据。
      说明:
      1. 不支持选择跨区域(Region)的OBS桶。如果您的OBS桶中有需要特别保护的敏感数据,请自行对数据加密后再存放到OBS桶。
      2. 需选择符合格式要求的数据文件,建议文件中包含README用来解析数据的详细情况。可参考数据集格式说明章节内容。

    数据集名称

    仅在数据集选择“对象存储服务OBS”时有效。

    在下方输入框中输入数据集名称。

    命名规则:由中文、数字、字母、下划线(_)、连字符(-)、点(.)、斜线(/)组成,长度为3~64个字符。

    保存路径

    可选“空间资产-数据”或“对象存储服务OBS”。

    • 当选择“空间资产-数据”时,默认“空间资产-数据”为保存路径。
    • 当选择“对象存储服务OBS”时,单击在弹出来的OBS存储数据路径下选择OBS路径。

    输出数据集名称

    在输入框中输入输出数据集名称。

    命名规则:由中文、数字、字母、下划线(_)、连字符(-)、点(.)、斜线(/)组成,长度为3~44个字符。

  4. 填写完相关参数后,单击“立即创建”,数据处理任务创建完成,系统自动返回数据处理列表页面,等待一段时间后,状态为“进行中”即为创建成功。

相关文档