创建训练任务
调试代码
创建训练任务之前,建议先调试代码。
由于Notebook的/cache目录只能支持500G的存储,超过后会导致实例重启,ImageNet数据集大小超过该限制,因此建议用线下资源调试、或用小批量数据集在Notebook调试(Notebook调试方法与使用Notebook进行代码调试、使用Notebook进行代码调试相同)。
创建训练任务
- 登录ModelArts管理控制台,检查当前帐号是否已完成访问授权的配置。如未完成,请参考使用委托授权。针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。
- 在左侧导航栏中选择“模型训练 > 训练作业”,默认进入“训练作业”列表。
- 在“创建训练作业”页面,填写相关参数信息,然后单击“提交”。
- 创建方式:选择“自定义算法”。
- 启动方式:选择“自定义”。
- 镜像:选择上传的自定义镜像。
- 启动命令:
cd /home/ma-user/work/code/Swin-Transformer && /home/ma-user/anaconda3/envs/pytorch/bin/pip install -r requirements.txt && /bin/sh run.sh
- 资源池:在“专属资源池”页签选择GPU规格的专属资源池。
- 规格:选择所需GPU规格。
- 计算节点个数:选择需要的节点个数。
- SFS Turbo:增加挂载配置,选择SFS名称,云上挂载路径为“/home/ma-user/work”。
为了和Notebook调试时代码路径一致,保持相同的启动命令,云上挂载路径需要填写为“/home/ma-user/work”。
- 单击“提交”,在“信息确认”页面,确认训练作业的参数信息,确认无误后单击“确定”。
- 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。
训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。训练作业执行成功后,日志信息如下所示。