更新时间:2022-03-31 GMT+08:00
分享

功能介绍

AI模型开发的过程,称之为Modeling,一般包含两个阶段:

  • 开发阶段:准备并配置环境,调试代码,使代码能够开始进行深度学习训练,推荐在ModelArts开发环境中调试。
  • 实验阶段:调整数据集、调整超参等,通过多轮实验,训练出理想的模型,推荐在ModelArts训练中进行实验。

两个过程可以相互转换。如开发阶段代码稳定后,则会进入实验阶段,通过不断尝试调整超参来迭代模型;或在实验阶段,有一个可以优化训练的性能的想法,则会回到开发阶段,重新优化代码

其部分过程可参考下图:

ModelArts提供了如下能力:

  • 丰富的官方预置镜像,满足用户的需求。
  • 支持基于预置镜像自定义制作专属开发环境,并保存使用。
  • 丰富的教程,帮助用户快速适配分布式训练,使用分布式训练极大减少训练时间。
  • 分布式训练调测的能力,可在PyCharm/VSCode/JupyterLab等开发工具中调试分布式训练。

约束限制

  • 开发环境指的是ModelArts提供的新版Notebook,不包括旧版Notebook。
  • 总览页面打开的CodeLab不支持此项功能,但是如果用户在AI Gallery中打开了可用的案例,会自动跳转到CodeLab中,此时是可以使用这项功能的。
  • 如果切换了Notebook的规格,那么只能在Notebook进行单机调测,不能进行分布式调测,也不能提交远程训练任务。
  • 当前仅支持Pytorch和MindSpore AI框架,如果MindSpore要进行多机分布式训练调试,则每台机器上都必须有8张卡。
  • 本文档提供的调测代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。
  • 本文档提供的调测代码是以Pytorch为例编写的,不同的AI框架之间,整体流程是完全相同的,只需要修改个别的参数即可。
分享:

    相关文档

    相关产品

close