创建无基模型训练作业
无基模型训练作业是指从零开始训练模型,而不基于任何初始模型权重进行训练。训练配置方式有“预置算法”(系统预置算法)、“空间资产-算法”(用户创建自定义的空间资产算法)以及“现在配置”(用户临时自定义的算法,但不存储到空间资产)三种方式。
约束限制
当前lerobot-libero数据集仅支持LeRobot_WALL-OSS-Base模型。
创建无基模型训练作业(基于预置算法)
- 登录CloudRobo控制台。
- 在左侧菜单栏中单击“模型开发 > 模型训练”,进入“模型训练”页面。
- 单击右上角“创建训练作业”,进入创建页面,参照如下参数说明配置相关信息。
表1 创建无基模型训练作业参数说明 参数
说明
基础信息
作业名称
模型训练作业的名称。
命名规则:由中文、数字、字母、下划线(_)、中划线(-)、点(.)、斜线(/)组成,长度为3~64个字符。
描述(可选)
训练作业的简介。
长度为512个字符以内。
训练配置
训练方式
选择“无基模型训练”方式。
无基模型训练是指不基于任何初始模型权重、从零开始训练模型。
算法
选择算法设置模型的调优方式。
用户可单击“预置算法”,下拉选择系统预置算法。
数据设置
数据
选择模型数据。
- 预置数据:单击
在弹出来的窗口中选择预置数据。 - 空间资产-数据:单击
在弹出来的窗口中选择空间资产-数据。 - 对象存储服务OBS:单击OBS存储数据路径下的数据。 说明:
- 不支持选择跨区域(Region)的OBS桶。如果您的OBS桶中有需要特别保护的敏感数据,请自行对数据加密后再存放到OBS桶。
- 只能选择当前工作空间下的默认存储位置OBS路径下的文件夹,不能选择到具体文件。
资源配置
资源池类型
选择资源池类型,支持公共资源池和专属资源池。
- 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建专属资源池,然后在开发过程中选择此专属资源池。专属资源池的创建可通过订阅CloudRobo具身智能开发平台基础版或专业版或纳管资源完成。不同方式创建的专属资源池应用场景有所不同,请以实际界面展示为准。
说明:选择的预置算法、数据如果是被保护的资产,为非公开资产,无法提交到专属资源池训练,用户无法选择“专属资源池”类型。
- 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。用户下发训练作业、部署模型、使用开发环境实例等情况下,均可以使用公共资源池完成。开通账号并申请公测后即可使用CloudRobo的公共资源池。
专属资源池
当“资源池”选择“专属资源池”时,显示此参数。
请在下拉列表选择该业务拥有的专属资源池。
实例规格
下拉选择资源池类型对应的实例规格。
实例数
输入实例数值。输入值默认为1。
超参配置
超参用于模型训练。
界面默认显示选中的预置算法超参,用户也可根据实际业务需求修改超参值。
环境变量
界面默认显示选中的预置算法的环境变量,也可根据业务需求配置环境变量的参数名称、值。
- 单击“添加”,添加环境变量信息,总数不超过90条。
- 如不需要可单击删除。
说明:为了确保您的数据安全,在环境变量中,请勿输入敏感信息,如明文密码。
训练产物
保存方式
设置训练产物的保存方式,模型训练的最终产物将发布至空间资产-模型。
“保存方式”支持“新模型”。
模型名称
输入调优后产生的新模型的名称。
模型名称长度范围为3~64个字符,由中文、数字、字母、下划线(_)、中划线(-)、点(.)、斜线(/)组成。
模型版本号
填写新模型版本号。
模型版本号长度范围为2~128个字符,以字母或数字开头,仅支持大小写字母、数字、中划线(-)、点号(.)、下划线(_)。
模型类型
选择发布模型类型。
用户根据业务需求选择发布的模型类型。选择项包括“感知模型”、“规划模型”、“导航模型”以及“操作模型”。
指定日志保存路径
开启是否指定日志保存路径。单击
选择指定的OBS路径。勾选后日志将永久保存至指定OBS路径,或在作业详情页下载全部日志至本地。
说明:只能选择当前工作空间下的默认存储位置OBS路径下的文件夹,不能选择到具体文件。
- 预置数据:单击
- 单击“立即创建”,模型训练作业创建完成。
创建完成后,系统自动返回模型训练列表页面,等待一段时间后,如果训练作业“状态”为“运行中”即为创建成功。
创建无基模型训练作业(基于空间资产-算法或现在配置算法)
- 登录CloudRobo控制台。
- 在左侧菜单栏中单击“模型开发 > 模型训练”,进入“模型训练”页面。
- 单击左上角“创建训练作业”,进入创建页面,参照如下参数说明配置相关信息。
表2 创建无基模型训练作业参数说明 参数
说明
基础信息
作业名称
模型训练作业的名称。
命名规则:由中文、数字、字母、下划线(_)、中划线(-)、点(.)、斜线(/)组成,长度为3~64个字符。
描述(可选)
训练作业的简介。
长度为512个字符以内。
训练配置
训练方式
选择“无基模型训练”方式。
无基模型训练是指不基于任何初始模型权重、从零开始训练模型。
算法
用户通过算法设置模型的调优方式。选择“空间资产-算法”或“现在配置”2种方式。- 空间资产-算法:单击
在弹出来的窗口中选择算法,也可以单击“创建算法”去空间资产自定义算法(参考创建自定义算法章节操作)。 - 现在配置:在当前页面自定义算法,不存入空间资产-算法。
环境配置
镜像
训练需要的容器镜像。
单击
,修改或选择容器镜像。代码目录
执行本次训练作业所需的代码目录。
勾选“代码目录”,单击右侧的
,修改或选择训练代码文件所在的OBS目录。OBS目录下的内容会被自动下载至训练容器的本地代码目录中。需要提前将代码上传至OBS桶中,目录内文件总大小必须小于或等于5GB,文件数必须小于或等于1000个,文件深度必须小于或等于32。如果使用预训练模型,请将其放置在代码目录下。
说明:- 如果您的OBS桶中有需要特别保护的敏感数据,请自行对数据加密后再存放到OBS桶。
- 只能选择当前工作空间下的默认存储位置OBS路径下的文件夹,不能选择到具体文件。
启动命令
镜像的启动命令。
运行训练作业时,当“代码目录”下载完成后,“启动命令”会被自动执行。- 如果训练启动脚本用的是py文件,例如“train.py”,则启动命令如下所示。
python ${MA_JOB_DIR}/demo-code/train.py - 如果训练启动脚本用的是sh文件,例如“main.sh”,则启动命令如下所示。
bash ${MA_JOB_DIR}/demo-code/main.sh
启动命令支持使用“;”和“&&”拼接多条命令,命令中的“demo-code”为存放代码目录的最后一级OBS目录,以实际情况为准。
本地代码目录
用于指定训练容器中代码的本地目录,启动训练时系统会将代码目录中的文件下载至此目录下,下载内容为代码目录的最小子目录。
资源配置
资源池类型
选择资源池类型,支持公共资源池和专属资源池。
- 专属资源池:专属资源池不与其他用户共享,资源更可控。在使用专属资源池之前,您需要先创建专属资源池,然后在开发过程中选择此专属资源池。专属资源池的创建可通过订阅CloudRobo具身智能开发平台基础版或专业版或纳管资源完成。不同方式创建的专属资源池应用场景有所不同,请以实际界面展示为准。
- 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。用户下发训练作业、部署模型、使用开发环境实例等情况下,均可以使用公共资源池完成。开通账号并申请公测后即可使用CloudRobo的公共资源池。
专属资源池
当“资源池”选择“专属资源池”时,显示此参数。
请在下拉列表选择该业务拥有的专属资源池。
实例规格
下拉选择资源池类型对应的实例规格。
实例数
输入实例数值。输入值默认为1。
超参配置
超参用于模型训练。
用户可根据实际业务需求配置超参。
- 单击“添加”,添加超参信息,总数不超过90条。
- 如不需要可单击
删除。
环境变量
根据业务需求设置环境变量的参数名称、值。
- 单击“添加”,添加环境变量信息,总数不超过90条。
- 如不需要可单击
删除。
说明:为了确保您的数据安全,在环境变量中,请勿输入敏感信息,如明文密码。
输入输出
输入
单击“添加”,配置训练作业输入信息,最多可添加10个。
- 参数名称
算法代码需要通过“输入”的“参数名称”去读取训练的输入数据。
建议设置为“data_url”。训练输入参数要与所选算法的“输入”参数匹配。
- 输入路径类型
- 输入路径
训练启动时,系统将自动下载输入路径中的数据到训练运行容器。
- 获取方式
以参数名称为“data_path”的训练输入为例,说明获取方式的作用。
- 当参数的“获取方式”为“超参”时,可以参考如下代码来读取数据。
import argparseparser = argparse.ArgumentParser() parser.add_argument('--data_path') args, unknown = parser.parse_known_args() data_path = args.data_path - 当参数的“获取方式”为“环境变量”时,可以参考如下代码来读取数据。
import osdata_path = os.getenv("data_path", "")
- 当参数的“获取方式”为“超参”时,可以参考如下代码来读取数据。
- 容器本地路径:数据输入的容器本地路径。
输出
单击“添加”,配置训练作业输出信息,最多可添加5个。
- 参数名称
算法代码需要通过“输出”的“参数名称”去读取训练的输出目录。
建议设置为“train_url”。训练输出参数要与所选算法的“输出”参数匹配。
- 输出路径
单击“输出路径”参数右侧的,从OBS桶中选择训练输出数据的存储位置。文件总大小必须小于或等于1GB,文件数必须小于或等于128个,单个文件大小必须小于或等于128MB。
训练过程中,系统将自动从训练容器的本地代码目录下同步文件到数据存储位置。
输出数据的存储位置仅支持OBS存储。为避免和训练输入数据存储冲突,建议选择一个空目录用作输出数据存储位置。
- 获取方式
以参数名称为“train_url”的训练输出为例,说明获取方式的作用。
- 当参数的“获取方式”为“超参”时,可以参考如下代码来读取数据。
import argparse parser = argparse.ArgumentParser() parser.add_argument('--train_url') args, unknown = parser.parse_known_args() train_url = args.train_url - 当参数的“获取方式”为“环境变量”时,可以参考如下代码来读取数据。
import os train_url = os.getenv("train_url", "")
- 当参数的“获取方式”为“超参”时,可以参考如下代码来读取数据。
- 容器本地路径:数据输入通道映射的容器本地路径。
训练产物
说明:请确保在训练镜像中将训练产物保存至系统内置的环境变量 ${RESULT} 指定的本地目录。系统检测到该目录内容后,将自动将其上传到模型资产中。
保存方式
设置训练产物的保存方式。
- 当“保存方式”设置为“新模型”时,可自定义新模型的名称。模型训练的最终产物将发布至空间资产-模型。
- 当“保存方式”设置为“不发布”时,模型训练的最终产物将不发布至空间资产-模型。
模型名称
输入或者选择调优后产生的新模型的名称。
模型名称长度范围为3~64个字符,由中文、数字、字母、下划线(_)、中划线(-)、点(.)、斜线(/)组成。
说明:当“保存方式”设置为“不发布”该字段无效。
模型版本号
填写新模型版本号。发布时,模型版本号会自动新增一个版本。
模型版本号长度范围为2~128个字符,以字母或数字开头,仅支持大小写字母、数字、中划线(-)、点号(.)、下划线(_)。
说明:当“保存方式”设置为“不发布”该字段无效。
模型类型
选择发布模型类型。
用户根据业务需求选择发布的模型类型。选择项包括“感知模型”、“规划模型”、“导航模型”以及“操作模型”。
说明:当“保存方式”设置为“不发布”该字段无效。
指定日志保存路径
开启是否指定日志保存路径。单击
选择指定的OBS路径。勾选后日志将永久保存至指定OBS路径,或在作业详情页下载全部日志至本地。
说明:只能选择当前工作空间下的默认存储位置OBS路径下的文件夹,不能选择到具体文件。
- 空间资产-算法:单击
- 单击“立即创建”,模型训练作业创建完成。
创建完成后,系统自动返回模型训练列表页面,等待一段时间后,如果训练作业“状态”为“运行中”即为创建成功。