创建数据处理任务
场景描述
数据处理是数据准备的核心环节,负责将原始多模态数据(视觉、触觉、力觉、位姿)转化为高质量训练样本,解决时序失配、噪声干扰和仿真-现实差异问题。
约束限制
- 计算资源限制:实时处理需高性能CPU,否则时延会降低响应速度。
- 数据质量约束:传感器故障或标定误差会导致数据不可用(如LiDAR点云缺失>20%需丢弃)。
- 存储与带宽瓶颈:原始多模态数据量庞大(1小时≈500GB),需分布式存储(如HDFS)和压缩算法。
前提条件
- 用户已经开通了CloudRobo账号。
- 用户已有一批数据在本地,或者使用平台预置的数据集。
- 用户终端最低硬件配置,客户已采购数据处理的算力资源。
创建数据处理任务
- 登录CloudRobo控制台。
- 在左侧菜单栏中单击“数据准备 > 数据处理”,进入数据处理页面。
- 单击右上角“创建任务”,进入创建页面,参照如下参数说明配置相关信息。
表1 数据处理参数说明 参数
说明
基础信息
任务名称
数据处理任务的名称。
命名规则:名称是由中文、数字、字母、下划线(_)、连字符(-)、点(.)、斜线(/)组成,输入长度范围为3~64个字符。
描述
数据处理的简介。
长度为512个字符以内。
处理信息
处理算法
可选“预置算法”或“空间资产-算法”。
- 预置算法:在下拉框中选择预置的算法,对数据进行处理。当预置算法选择“数据处理--逆运动学求解器 ”时,不支持RAY作业类型。
- 空间资产-算法:在下拉框中选择自定义上传的算法,对数据进行处理。
启动命令
系统会根据您选择的处理算法类型自动填充命令行。
- 选择“预置算法”不支持修改启动命令。
- 选择“空间资产-算法”支持修改启动命令。
说明:算法默认执行命令,无需修改,支持一键复制。
环境变量
根据业务需求设置环境变量的参数名称、值。
- 单击“添加”,输入“参数名称”和“值”,添加环境变量信息,总数不超过90条。
参数名称:请输入以字母或下划线开头的1~64个字符,仅支持字母、数字、连字符(-)、下划线(_)。
值:请输入0~512个字符,支持中英文、字母、数字及特殊符号(_/\.,:@<>{}$-)。
- 可单击操作栏的删除图标进行删除。
说明:为了确保您的数据安全,在环境变量中,请勿输入敏感信息,如明文密码。
运行环境配置
挂载容器目录
仅在处理算法选择“空间资产-算法”时有效。
在输入框中输入挂载容器目录的路径。例:/tmp/dir1/dir2。
作业类型
可选“K8S作业”或“RAY作业”。
资源池
选择资源池类型,支持公共资源池和专属资源池。
- 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建专属资源池,然后在开发过程中选择此专属资源池。专属资源池的创建可通过订阅CloudRobo具身智能开发平台基础版或专业版或纳管资源完成。不同方式创建的专属资源池应用场景有所不同,请以实际界面展示为准。
- 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。用户下发训练作业、部署模型、使用开发环境实例等情况下,均可以使用公共资源池完成。开通账号并申请公测后即可使用CloudRobo的公共资源池。
worker资源规格
- 当选择“K8S作业”时,只需要在下拉框中选择worker资源规格。
- 当选择“RAY作业”时,需要选择head资源规格和worker资源规格。
head资源规格
当选择“RAY作业”时,需要先在下拉框中选择head资源规格。当选择“K8S作业”时,不涉及该配置项。
workNum并发数量
仅在作业类型选择“RAY作业”时有效。
配置workNum并发数量。默认值为1。说明:并行处理数据的worker数量,数值越大处理速度越快,但消耗的集群CPU、内存、带宽资源越多,过高数值会导致集群资源不足、任务调度排队、甚至单个Worker资源不足导致处理失败。
动态存储
勾选“动态存储”后,可在数字微调器中输入值,默认为10。输入的值必须在10到32768之间。
说明:- K8s作业动态存储使用值 = 配置的动态存储容量。
- Ray作业动态存储使用值 = 配置的动态存储容量 ×(1 + workNum并发数量)。
- 当选择“专属资源池”时,不支持选择“动态存储”。
数据配置
数据集
可选“空间资产-数据”或“对象存储服务OBS”。
- 空间资产-数据:单击
在弹出来的窗口中选择空间资产-数据。或者单击“创建数据集”,在弹出来的框中填写参数信息。可参考空间资产-创建数据资产章节。 - 对象存储服务OBS:单击
在弹出来的OBS存储数据路径下选择数据。 说明:- 不支持选择跨区域(Region)的OBS桶。如果您的OBS桶中有需要特别保护的敏感数据,请自行对数据加密后再存放到OBS桶。
- 需选择符合格式要求的数据文件,建议文件中包含README用来解析数据的详细情况。可参考数据集格式说明章节内容。
数据集名称
仅在数据集选择“对象存储服务OBS”时有效。
在下方输入框中输入数据集名称。
命名规则:由中文、数字、字母、下划线(_)、连字符(-)、点(.)、斜线(/)组成,长度为3~64个字符。
保存路径
可选“空间资产-数据”或“对象存储服务OBS”。
- 当选择“空间资产-数据”时,默认“空间资产-数据”为保存路径。
- 当选择“对象存储服务OBS”时,单击
在弹出来的OBS存储数据路径下选择OBS路径。
输出数据集名称
在输入框中输入输出数据集名称。
命名规则:由中文、数字、字母、下划线(_)、连字符(-)、点(.)、斜线(/)组成,长度为3~44个字符。
- 填写完相关参数后,单击“立即创建”,数据处理任务创建完成,系统自动返回数据处理列表页面,等待一段时间后,状态为“进行中”即为创建成功。