更新时间:2024-09-10 GMT+08:00
分享

创建训练任务

  1. 登录ModelArts管理控制台,检查当前帐号是否已完成访问授权的配置。如果未完成,请参考使用委托授权针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。
  2. 在左侧导航栏中选择“模型训练 > 训练作业”,默认进入“训练作业”列表。单击“创建训练作业”进入创建训练作业页面。
  3. “创建训练作业”页面,填写相关参数信息,然后单击“提交”
    • 创建方式:选择“自定义算法”。
    • 启动方式:选择“自定义”。
    • 镜像:选择上传的自定义镜像。
    • 启动命令:
      ln -s /home/ma-user/work/coco /home/ma-user/coco && cd /home/ma-user/work/code/YOLOX/ && /home/ma-user/anaconda3/envs/pytorch/bin/pip install -r requirements.txt && /bin/sh tools/run.sh
    • 资源池:在“专属资源池”页签选择GPU规格的专属资源池。
    • 规格:选择8卡GPU规格。
    • 计算节点:1。
    • SFS Turbo:增加挂载配置,选择SFS名称,云上挂载路径为“/home/ma-user/work”。

      为了和Notebook调试时代码路径一致,保持相同的启动命令,因此云上挂载路径需要填写为“/home/ma-user/work”。

  4. 单击“提交”,在“信息确认”页面,确认训练作业的参数信息,确认无误后单击“确定”
  5. 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。

    训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。训练作业执行成功后,日志信息如下所示。

相关文档