更新时间:2024-09-10 GMT+08:00
创建训练任务
- 登录ModelArts管理控制台,检查当前帐号是否已完成访问授权的配置。如果未完成,请参考使用委托授权针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。
- 在左侧导航栏中选择“模型训练 > 训练作业”,默认进入“训练作业”列表。单击“创建训练作业”进入创建训练作业页面。
- 在“创建训练作业”页面,填写相关参数信息,然后单击“提交”。
- 创建方式:选择“自定义算法”。
- 启动方式:选择“自定义”。
- 镜像:选择上传的自定义镜像。
- 启动命令:
ln -s /home/ma-user/work/coco /home/ma-user/coco && cd /home/ma-user/work/code/YOLOX/ && /home/ma-user/anaconda3/envs/pytorch/bin/pip install -r requirements.txt && /bin/sh tools/run.sh
- 资源池:在“专属资源池”页签选择GPU规格的专属资源池。
- 规格:选择8卡GPU规格。
- 计算节点:1。
- SFS Turbo:增加挂载配置,选择SFS名称,云上挂载路径为“/home/ma-user/work”。
为了和Notebook调试时代码路径一致,保持相同的启动命令,因此云上挂载路径需要填写为“/home/ma-user/work”。
- 单击“提交”,在“信息确认”页面,确认训练作业的参数信息,确认无误后单击“确定”。
- 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。
训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。训练作业执行成功后,日志信息如下所示。
父主题: 单机多卡