更新时间:2024-08-16 GMT+08:00
分享

使用JupyterLab创建并调试训练作业

调试模式的训练作业集成了JupyterLab等开发工具链,支持本地IDE远程开发,为训练用户提供更好的云化AI开发体验。

ModelArts提供了云化版本的JupyterLab,无需关注安装配置,即开即用。调试模式的训练作业支持连接JupyterLab,云上调试和运行代码,调试完成的代码可以直接创建生产训练作业。

ModelArts也提供了本地IDE的方式开发模型,通过开启SSH远程开发,本地IDE可以远程连接到调试训练作业中,进行调试和运行代码。本地IDE方式不影响用户的编码习惯,并且调试完成的代码可以零成本直接创建生产训练作业。

调试模式的训练作业支持分布式算法调试。

前提条件

  • 已经将用于训练作业的数据上传至OBS目录。
  • 已经在OBS目录下创建了至少1个空的文件夹,用于存储训练输出的内容。

    ModelArts不支持加密的OBS桶,创建OBS桶时,请勿开启桶加密。

  • 由于训练作业运行需消耗资源,为了避免训练失败请确保账户未欠费。
  • 确保使用的OBS目录与ModelArts在同一区域。
  • 检查是否配置了访问授权。如果未配置,请参见使用委托授权完成操作
  • 已经上传镜像到SWR服务中,具体操作请参见如何登录并上传镜像到SWR
  • 已经准备好训练作业的专属资源池。如需新建资源池请参见创建资源池

操作流程介绍

创建训练作业的操作步骤如下所示。

  1. 进入创建训练作业页面
  2. 配置调试训练作业基本信息
  3. 使用自定义镜像创建调试训练作业:选择自定义算法创建方式
  4. 配置训练参数:配置训练作业的输入、输出、超参、环境变量等参数。
  5. 根据需要选择合适的专属资源池用于训练作业:配置专属资源池
  6. (可选)设置标签:如果需要对训练作业进行资源分组管理,可以设置标签。
  7. 提交训练作业并调试

进入创建训练作业页面

  1. 登录ModelArts管理控制台。
  2. 在左侧导航栏中,选择模型训练 > 训练作业进入训练作业列表。
  3. 单击“创建训练作业”,进入创建训练作业页面。

配置调试训练作业基本信息

在创建训练作业页面填写调试训练作业的基本信息。

表1 调试训练作业的基本信息

参数名称

说明

名称

必填,训练作业的名称。

系统会自动生成一个名称,可以根据业务需求重新命名,命名规则如下:

  • 支持1~64位字符。
  • 可以包含大小写字母、数字、中划线(-)或下划线(_)。

描述

训练作业的简介,便于在训练作业列表了解作业信息。

设置实验

将训练作业分类有序地放入实验中进行管理。

  • 如果选择“纳入新实验”,需要配置“新建实验名称”“新建实验描述”
  • 如果选择“纳入已有实验”,需要选择“实验名称”
  • 如果选择“不纳入实验”,则不在实验中进行统一管理。

作业模式

创建调试训练作业时,必须选择“调试模型”。如果选择“生产模式”,则请参考创建生产训练作业创建生产训练作业。

SSH远程开发

选择是否启用SSH远程开发功能。

默认关闭,不启用SSH远程开发,只支持使用JupyterLab调试训练作业。打开后,启用SSH远程开发,则必须配置“密钥对”,此时支持使用JupyterLab或本地IDE调试训练作业。

密钥对

启用SSH远程开发时,必须配置密钥对。

可以选择已有密钥对,也可以单击“立即创建”新建密钥对,具体操作请参见创建密钥对

说明:

创建好的密钥对,请下载并妥善保管,使用本地IDE远程连接到调试训练作业时需要使用密钥对进行鉴权认证。

训练应用程序

默认使用JupyterLab,支持去勾选。

创建调试作业时,建议SSH远程开发和JupyterLab至少启用一个。

选择自定义算法创建方式

只支持使用自定义镜像创建调试训练作业。
表2 选择调试训练作业的创建方式

参数名称

说明

创建方式

固定选择“自定义算法”

启动方式

固定选择“自定义”

镜像

必填,填写容器镜像的地址。

容器镜像地址的填写支持如下方式。
  • 选择自有镜像或他人共享的镜像:单击右边的“选择”,从容器镜像中选择用于训练的容器镜像。所需镜像需要提前上传到SWR服务中。
  • 选择公开镜像:直接输入SWR服务中公开镜像的地址。地址直接填写“组织名称/镜像名称:版本名称”,不需要带域名信息,系统会自动拼接域名地址。

代码目录

选择训练代码文件所在的OBS目录。如果自定义镜像中不含训练代码则需要配置该参数,如果自定义镜像中已包含训练代码则不需要配置。

  • 需要提前将代码上传至OBS桶中,目录内文件总大小要小于或等于5GB,文件数要小于或等于1000个,文件深度要小于或等于32。
  • 训练代码文件会在训练作业启动的时候被系统自动下载到训练容器的“${MA_JOB_DIR}/demo-code”目录中,“demo-code”为存放代码目录的最后一级OBS目录。例如,“代码目录”选择的是“/test/code”,则训练代码文件会被下载到训练容器的“${MA_JOB_DIR}/code”目录中。

运行用户ID

容器运行时的用户ID,该参数为选填参数,建议使用默认值1000。

如果需要指定uid,则uid数值需要在规定范围内,专属资源池的uid范围是1~65535。同时,自定义镜像必须存在“/home/ma-user”目录,且“/home/ma-user”目录的属主为指定uid,属组为指定uid对应的gid。

本地代码目录

指定训练容器的本地目录,启动训练时系统会将代码目录下载至此目录。

此参数可选,默认本地代码目录为“/home/ma-user/modelarts/user-job-dir”

工作目录

训练时,系统会自动cd到此目录下执行启动文件。

配置训练参数

训练过程中可以从OBS桶或者数据集中获取输入数据进行模型训练,训练输出的结果也支持存储至OBS桶中。创建训练作业时可以参考表3配置输入、输出、超参、环境变量等参数。

表3 配置训练参数

参数名称

子参数

说明

输入

参数名称

算法代码需要通过“输入”“参数名称”去读取训练的输入数据。

建议设置为“data_url”。训练输入参数要与所选算法的“输入”参数匹配,请参见创建算法时的表4

数据集

单击“数据集”,在ModelArts数据集列表中勾选目标数据集并选择对应的版本。

训练启动时,系统将自动下载输入路径中的数据到训练运行容器。

说明:

ModelArts数据管理模块在重构升级中,对未使用过数据管理的用户不可见。建议新用户将训练数据存放至OBS桶中使用。

数据存储位置

单击“数据存储位置”,从OBS桶中选择训练输入数据的存储位置。

训练启动时,系统将自动下载输入路径中的数据到训练运行容器。

获取方式

以参数名称为“data_path”的训练输入为例,说明获取方式的作用。

  • 当参数的“获取方式”“超参”时,可以参考如下代码来读取数据。
    import argparse
    parser = argparse.ArgumentParser()
    parser.add_argument('--data_path')
    args, unknown = parser.parse_known_args()
    data_path = args.data_path 
  • 当参数的“获取方式”“环境变量”时,可以参考如下代码来读取数据。
    import os
    data_path = os.getenv("data_path", "")

输出

参数名称

算法代码需要通过“输出”“参数名称”去读取训练的输出目录。

建议设置为“train_url”。训练输出参数要与所选算法的“输出”参数匹配,请参见创建算法时的表5

数据存储位置

单击“数据存储位置”,从OBS桶中选择训练输出数据的存储位置。训练过程中,系统将自动从训练容器的本地代码目录下同步文件到数据存储位置。

说明:

数据存储位置仅支持OBS路径。为避免数据存储冲突,建议选择一个空目录用作“数据存储位置”

获取方式

以参数名称为“train_url”的训练输出为例,说明获取方式的作用。

  • 当参数的“获取方式”“超参”时,可以参考如下代码来读取数据。
    import argparse
    parser = argparse.ArgumentParser()
    parser.add_argument('--train_url')
    args, unknown = parser.parse_known_args()
    train_url = args.train_url 
  • 当参数的“获取方式”“环境变量”时,可以参考如下代码来读取数据。
    import os
    train_url = os.getenv("train_url", "")

预下载至本地目录

选择是否将输出目录下的文件预下载至本地目录。

  • 不下载:表示启动训练作业时不会将输出数据的存储位置中的文件下载到训练容器的本地代码目录中。
  • 下载:表示系统会在启动训练作业时自动将输出数据的存储位置中的所有文件下载到训练容器的本地代码目录中。下载时间会随着文件变大而变长,为了防止训练时间过长,请及时清理训练容器的本地代码目录中的无用文件。如果要使用设置断点续训练,则必须选择“下载”

超参

-

超参用于训练调优。此参数由选择的算法决定,如果在算法中已经定义了超参,则此处会显示算法中所有的超参。

超参支持修改和删除,状态取决于算法中的超参“约束”设置,详情请参见创建算法时的定义超参

说明:

为保证数据安全,请勿输入敏感信息,例如明文密码。

环境变量

-

根据业务需求增加环境变量。训练容器中预置的环境变量请参见管理训练容器环境变量

说明:

为保证数据安全,请勿输入敏感信息,例如明文密码。

自动重启

-

打开开关后,可以设置重启次数和是否启用无条件自动重启。

打开自动重启开关后,当由于环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见设置断点续训练

重启次数的取值范围是1~128,缺省值为3。创建训练后不支持修改重启次数,请合理设置次数。

勾选无条件自动重启后,只要系统检测到训练异常,就无条件重启训练作业。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。

当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度

配置专属资源池

如果使用专属资源池创建训练作业,则参考表4配置专属资源池。
表4 创建训练作业的专属资源池

参数名称

说明

资源池

必选,选择“专属资源池”并选择要使用的资源池。

选择专属资源池时,支持查看当前资源池的状态、节点规格、空闲/碎片节点数、可用节点/总节点数以及卡数信息。单击“空闲/碎片节点数”列的“查看”可以查看碎片详情,确认资源池是否满足训练需求。

规格

必选,根据不同的资源类型,选择所需的资源规格。

“输入”参数选择“数据存储位置”时,在选择资源池规格时可以单击右侧的“获取输入数据大小”,检查输入数据的大小是否超出数据盘的容量限制,避免训练过程中出现内存不足的情况。

须知:

资源规格为“GPU:n*tnt004”(n表示具体数字)的资源不支持多进程的训练任务。

自定义规格

选择是否打开“自定义规格”开关。训练作业支持基于专属资源池的规格自定义资源规格,进而提升资源池的利用率。

  • 开关关闭(默认关闭):表示直接使用专属资源池的规格。
  • 开关打开:表示自定义专属资源池的规格,自定义规格只能小于或等于专属资源池的“节点规格”。CPU规格只支持自定义核数和内存,GPU和Ascend规格支持自定义核数、内存和卡数。
说明:

如果启用“自定义规格”,则“规格”参数将配置无效。

计算节点个数

必填,根据需要选择计算节点的个数。默认值为“1”

  • “计算节点个数 = 1”时,创建的是单机训练作业,ModelArts只会在一个节点上启动一个训练容器,该训练容器独享所选规格的计算资源。
  • “计算节点个数 > 1”时,创建的是分布式训练作业,更多分布式训练配置请参见分布式训练功能介绍

作业优先级

使用专属资源池创建训练作业时,支持设置训练作业的优先级。取值为1~3,默认优先级为1,最高优先级为3。

SFS Turbo

当ModelArts和SFS Turbo间网络直通时,训练作业支持挂载多个SFS Turbo存放训练数据。单击“增加挂载配置”,填写如下参数。

  • “文件系统”:选择一个SFS Turbo。
  • “云上挂载路径”:输入SFS Turbo对应在训练容器内的云上挂载路径。
  • “存储位置”:选择SFS Turbo的存储位置。如果用户配置了文件夹控制权限,请选择存储位置;如果用户未配置文件夹控制权限,可以保持默认值“/”或者自定义位置。
  • “挂载方式”:显示挂载SFS Turbo的权限。根据SFS Turbo存储位置的权限显示“读写”“只读”,如果用户未配置文件夹控制权限,则该参数不可见。
  • “挂载参数”:支持配置SFS挂载参数实现训练加速优化,具体参数说明请参见设置极速文件存储挂载参数。不设置时,默认配置如下参数:
    mountOptions:
    - vers=3 
    - timeo=600 
    - nolock 
    - hard
说明:
  • 相同的文件系统只能挂载一次 ,且只能对应一个挂载路径,挂载路径均不可重复。最多可以挂载8个盘。
  • 如果要使用训练作业挂载SFS Turbo功能,需要配置ModelArts和SFS Turbo间网络直通,具体操作请参见配置ModelArts和SFS Turbo间网络直通
  • 云上挂载路径有如下限制:不能为 / 目录,不能为 /cache、 /home/ma-user/modelarts等系统已经默认挂载的路径。
  • 如果需要设置SFS Turbo的文件夹权限,请参考权限管理文档配置。

永久保存日志

选择CPU或者GPU资源时,支持选择是否打开“永久保存日志”开关。

  • 开关关闭(默认关闭):表示不永久保存日志,则训练日志会在30天后会被清理。可以在作业详情页下载全部日志至本地。
  • 开关打开:表示永久保存日志,此时必须配置“作业日志路径”,系统会将训练日志永久保存至指定的OBS路径。

作业日志路径

选择Ascend资源时或者打开“永久保存日志”开关时,必须配置“作业日志路径”,用于存放训练作业产生的日志文件。

建议选择一个空的OBS文件目录存放运行中产生的日志文件,同时需要OBS文件目录的读写权限。

事件通知

选择是否打开“事件通知”开关。

  • 开关关闭(默认关闭):表示不启用消息通知服务。
  • 开关打开:表示订阅消息通知服务,当训练作业发生特定事件(如作业状态变化或疑似卡死)时会发送通知。此时必须配置“主题名”“事件”
    • “主题名”:事件通知的主题名称。单击“创建主题”,前往消息通知服务中创建主题。
    • “事件”:选择要订阅的事件类型。例如“作业开始”“作业结束”“作业失败”“作业终止”“作业疑似卡死”等。
说明:
  • 需要为消息通知服务中创建的主题添加订阅,当订阅状态为“已确认”后,方可收到事件通知。订阅主题的详细操作请参见添加订阅
  • 使用消息通知服务会产生相关服务费用,详细信息请参见计费说明
  • 只有资源类型为“GPU”的训练作业才支持通知“作业疑似卡死”的事件。

自动停止

选择是否设置训练作业自动停止。

  • 开关关闭:表示训练作业将一直运行直至训练完成。
  • 开关打开(默认打开):表示启用自动停止功能,此时必须配置自动停止时间,支持设置为“1小时”“2小时”“4小时”、6小时或“自定义”,自定义时间取值范围为1~720小时。启用该参数并设置时间后,运行时长到期后将会自动终止训练,准备排队等状态不扣除运行时长。

(可选)设置标签

如果需要通过标签实现资源分组管理,可以在“高级选项”处勾选“现在配置”,可以设置训练作业的“标签”。标签详细用法请参见ModelArts如何通过标签实现资源分组管理

提交训练作业并调试

  1. 当创建训练作业的参数配置完成后,单击“提交”,在信息确认页面单击“确定”,提交创建训练作业任务。

    在训练作业列表中,刚创建的训练作业状态为“等待中”

  2. 在训练作业列表中,当训练作业的状态变为“运行中”时,单击操作列的“打开”弹出JupyterLab页面,即可进行训练代码调试。

    JupyterLab页面左侧会显示训练代码文件,JupyterLab的使用请参见JupyterLab简介及常用操作

    当创建的调试训练作业开启了SSH远程开发时,在训练作业详情页获取“SSH远程开发”参数后的“密钥对”和SSH地址信息后,可以使用本地IDE远程连接到调试训练作业中进行代码调试。本地IDE的使用请参见本地IDE操作流程

训练作业运行过程中将按照选择的资源进行计费。

相关文档