执行训练任务
本章节介绍基于ModelArts控制台配置并执行训练任务的关键操作。
前提条件
- 已经在ModelArts控制台完成权限配置,具体参考委托授权配置,如果未配置授权,会在训练作业页面顶端提示权限缺失,请根据界面提示操作。
- 将模型权重、训练数据、数据预处理脚本、训练脚本上传至OBS桶中,例如obs://areal/xxx
步骤一:基础配置
- 登录ModelArts管理控制台,选择,进入训练作业列表页。
- 单击“创建训练作业”,进入创建训练作业页面。根据下表填写训练作业基础配置参数。
表1 基础配置参数说明 参数
是否可选
说明
示例
训练模式
必选
训练模式分为精调训练和自定义作业,本方案中选择“自定义作业”。
自定义作业
作业名称
必选
必填,训练作业的名称。
系统会自动生成一个名称,可以根据业务需求重新命名。
系统自动生成
描述(可选)
可选
训练作业的简介,便于在训练作业列表了解作业信息。
AReaL训练
步骤二:训练配置
根据表2填写训练作业关键配置参数。
步骤三:资源配置
根据表3填写训练作业资源配置参数。
|
参数 |
是否可选 |
说明 |
示例 |
|---|---|---|---|
|
资源池类型 |
必选 |
选择公共资源池或专属资源池。 本方案中要求使用专属资源池。 |
专属资源池 |
|
资源池 |
必选 |
单击“选择资源池”,在右侧弹窗中选择规格为8 * Snt9b2的物理资源池。 资源池需要提前创建。单击资源碎片列的“查看”可以查看碎片详情,确认资源池是否满足训练需求。 |
物理资源池 8 * Snt9b2 |
|
实例规格 |
必选 |
选择8*Snt9b2资源规格。 |
8*Snt9b2 |
|
实例数 |
必选 |
Qwen3-8B模型训练需要2机共16卡资源,设置为2。 Qwen3-32B模型训练需要3机共24卡资源,设置为3。 |
Qwen3-8B:2 Qwen3-32B:3 |
|
挂载存储 |
可选 |
单击“添加拓展存储OBS”,需要使用OBS存储训练产物。 |
拓展存储OBS |
|
存储位置:选择OBS桶中的训练输出路径。注意和代码OBS路径区分开 |
obs://<bucket_name>/ckpt_space |
||
|
云上挂载路径:训练容器中的训练产物输出路径.例如,对于本示例, obs://<bucket_name>/ckpt_space挂载到容器中则路径为/home/ma-user/ckpts/ckpt_space |
/home/ma-user/ckpts |
||
|
只读:表示挂载的OBS路径只能读,不能写。训练输出需要写入到OBS中,此处不能勾选。 |
不勾选 |
||
|
作业调度优先级 |
可选 |
训练作业调度优先级。 |
保持默认 |
|
允许被抢占 |
可选 |
开启后,当资源池剩余资源不足时,允许被抢占的作业可能会被终止并重新排队。为避免训练进度丢失,请在开启此功能前完成断点续训的设置。 |
不勾选 |
步骤四:高可用配置
根据表4填写训练作业高可用配置参数。
|
参数 |
是否可选 |
说明 |
示例 |
|---|---|---|---|
|
最大重启次数 |
可选 |
超过最大重启次数后发生故障,作业将被标记为失败。默认值为3。 |
保持默认 |
|
无条件自动重启 |
可选 |
只要系统检测到训练异常,就无条件重启训练作业。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。详细可了解:无条件自动重启。 |
不勾选 |
|
作业卡死重启 |
可选 |
系统支持自动监控作业进程的状态和资源利用率来判定作业是否卡死,开启此开关后,支持将标记为卡死的作业进行进程级自动重启,以提高资源使用率。为了避免无效重启浪费算力资源,系统最多只支持连续作业卡死重启3次。 |
勾选 |
步骤五:访问配置
本方案中,访问配置涉及的在线调试、SSH远程开发等参数保持默认,不配置。
步骤六:可观测配置
本方案中,可观测配置涉及到的监控指标对接AOM参数保持默认,不配置。
步骤七:更多其他配置
根据表5填写训练作业高可用配置参数。
|
参数 |
是否可选 |
说明 |
示例 |
|---|---|---|---|
|
永久保存日志 |
必选 |
日志30天后会被清理,打开按钮后可保存至指定OBS路径。您也可以在作业详情页下载全部日志至本地。路径可以按照自己实际obs情况自由配置 |
勾选 |
|
作业可见范围 |
可选 |
默认为工作空间内可见,同一个工作空间内容的用户均可以查看此训练作业。 仅创建者可见:创建的训练作业对其他用户不可见。 |
工作空间内可见 |
|
自动停止 |
可选 |
开启后,当作业运行时开始计时,运行时间超出您预设的时长,它将自动停止运行。 |
不勾选 |
|
事件通知 |
可选 |
配置该选项后发生特定事件(如作业状态变化或者疑似卡死)后会发送通知(短信邮件等),发送通知涉及少量费用。 |
不勾选 |
|
标签 |
可选 |
如果您需要使用同一标签标识多种云资源,即所有服务均可在标签输入框下拉选择同一标签,需要在TMS中设置标签。 |
不勾选 |
最后,在创建训练作业页面底部,单击“提交”,确认信息后,单击“立即创建”,提交训练作业。
训练作业一般需要运行一段时间,可以前往训练作业列表或训练详情页,查看训练作业的基本情况。
训练完成后,请参考查看训练结果输出章节查看训练日志和性能。
了解更多ModelArts训练功能,可查看ModelArts模型训练。