更新时间:2024-10-18 GMT+08:00
分享

创建训练任务

调试代码

创建训练任务之前,建议先调试代码。

由于Notebook的/cache目录只能支持500G的存储,超过后会导致实例重启,ImageNet数据集大小超过该限制,因此建议用线下资源调试、或用小批量数据集在Notebook调试(Notebook调试方法与使用Notebook进行代码调试使用Notebook进行代码调试相同)。

创建训练任务

  1. 登录ModelArts管理控制台,检查当前帐号是否已完成访问授权的配置。如未完成,请参考使用委托授权针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。
  2. 在左侧导航栏中选择“模型训练 > 训练作业”,默认进入“训练作业”列表。
  3. “创建训练作业”页面,填写相关参数信息,然后单击“提交”
    • 创建方式:选择“自定义算法”。
    • 启动方式:选择“自定义”。
    • 镜像:选择上传的自定义镜像。
    • 启动命令:
      cd /home/ma-user/work/code/Swin-Transformer && /home/ma-user/anaconda3/envs/pytorch/bin/pip install -r requirements.txt && /bin/sh run.sh
    • 资源池:在“专属资源池”页签选择GPU规格的专属资源池。
    • 规格:选择所需GPU规格。
    • 计算节点个数:选择需要的节点个数。
    • SFS Turbo:增加挂载配置,选择SFS名称,云上挂载路径为“/home/ma-user/work”。

      为了和Notebook调试时代码路径一致,保持相同的启动命令,云上挂载路径需要填写为“/home/ma-user/work”。

  4. 单击“提交”,在“信息确认”页面,确认训练作业的参数信息,确认无误后单击“确定”
  5. 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。

    训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。训练作业执行成功后,日志信息如下所示。

相关文档