执行训练任务
本章节介绍基于ModelArts控制台配置并执行训练任务的关键操作。
前提条件
- 已经在ModelArts控制台完成权限配置,具体参考委托授权配置,如果未配置授权,会在训练作业页面顶端提示权限缺失,请根据界面提示操作。
- 将模型权重、训练数据、训练相关脚本上传至OBS桶中,例如obs://mindspeed/mindspeed-a2
步骤一:基础配置
- 登录ModelArts管理控制台,选择,进入训练作业列表页。
- 单击“创建训练作业”,进入创建训练作业页面。根据下表填写训练作业基础配置参数。
表1 基础配置参数说明 参数
是否可选
说明
示例
训练模式
必选
训练模式分为精调训练和自定义作业,本方案中选择“自定义作业”。
自定义作业
作业名称
必选
必填,训练作业的名称。
系统会自动生成一个名称,可以根据业务需求重新命名。
系统自动生成
描述(可选)
可选
训练作业的简介,便于在训练作业列表了解作业信息。
MindSpeed-LLM训练
步骤二:训练配置
根据表2填写训练作业关键配置参数。

|
参数 |
是否可选 |
说明 |
示例 |
|---|---|---|---|
|
选择镜像 |
必选 |
选择训练需要的容器镜像。本方案中选择预置镜像。 平台中预置了MindSpeed-LLM框架训练所需镜像环境,可以直接使用,无需用户再准备。 |
预置镜像 |
|
镜像地址 |
必选 |
具体的镜像地址,MindSpeed-LLM镜像中包含了训练所需环境必备软件,例如:Cann包、驱动、PyTorch、MindSpeed-LLM框架代码包等。 |
MindSpeed-LLM |
|
启动命令 |
必选 |
训练镜像的启动命令。 此处需要提前将训练作业启动脚本及关联脚本文件都放入OBS桶中。 配置好所有脚本中的参数后执行run_distributed_task.sh即可,此脚本中包含了权重转化、数据处理、微调任务以及模型保存以及检查等配置。 启动命令中首先需要cd到自己存放训练启动总脚本所在的容器内本地代码目录。 |
多机训练场景 cd /home/ma-user/MA_Turbo/src/open_source/MindSpeed-LLM/code
bash run_distributed_task.sh
单机训练场景,同样使用上述脚本。 |
|
代码目录 |
必选 |
代码存在OBS中时,选择OBS桶路径obs://mindspeed-llm/mindspeed-llm-a2/代码目录。 训练时会将OBS路径内所有文件拷贝到训练容器的此目录中,并且对于此目录在容器内的修改不会反馈到OBS桶内。 如果OBS桶内文件太大则可能导致下载文件到训练容器内时间可能过长,导致任务启动变慢。 推荐优化方式为一个模型训练任务的脚本、模型文件夹、数据集文件夹在一个OBS桶路径内挂载,仅供本次训练任务使用。 |
obs://mindspeed-llm/mindspeed-llm-a2/ |
|
本地代码目录 |
必选 |
用于指定训练容器的本地目录,启动训练时系统会将OBS上的代码目录下载至此目录并覆盖,请使用新创建的目录。 MindSpeed-LLM及其依赖的安装目录在/home/ma-user/MA_Turbo/src/open_source/MindSpeed-LLM下,请在其中创建新目录作为本地代码目录,如/home/ma-user/MA_Turbo/src/open_source/MindSpeed-LLM/code。 如果OBS中的代码目录为obs://mindspeed-llm/input/,那么容器内目录结构为 /home/ma-user/MA_Turbo/src/open_source/MindSpeed-LLM/code/input/ |
/home/ma-user/MA_Turbo/src/open_source/MindSpeed-LLM/code |
|
环境变量 |
可选 |
使用训练脚本时,需添加输出环境变量,例如output_dir为参数名称(可以自定义),/home/ma-user/modelarts/outputs/output_dir_0为输出路径,用于保存预处理后的数据、checkpoint、训练日志至OBS。类似设置待训练模型路径的环境变量model_path以及待处理的数据集路径的环境变量dataset_path。 注意:拓展存储的OBS路径是将OBS的存储位置选定的文件夹在云上挂载路径下创建同名的文件夹并与之挂载。例如拓展存储OBS选择存储位置为/test/mindspeed-llm/output_dir_0, 云上挂载路径选择/home/ma-user/modelarts/outputs,则设置环境变量output_dir为/home/ma-user/modelarts/outputs/output_dir_0,即可将输出放在OBS中。 |
参数:output_dir 值:/home/ma-user/modelarts/outputs/output_dir_0 |
步骤三:资源配置
根据表3填写训练作业资源配置参数。
|
参数 |
是否可选 |
说明 |
示例 |
|---|---|---|---|
|
资源池类型 |
必选 |
本方案中要求使用专属资源池。 选择公共资源池无法保存训练过程文件。 |
专属资源池 |
|
资源池 |
必选 |
单击“选择资源池”,在右侧弹窗中选择规格为8 * Snt9b2的物理资源池。 资源池需要提前创建。单击资源碎片列的“查看”可以查看碎片详情,确认资源池是否满足训练需求。 |
物理资源池 8 * Snt9b2 |
|
实例规格 |
必选 |
选择8*Snt9b2资源规格。 |
8*Snt9b2 |
|
实例数 |
必选 |
Qwen3-8B模型训练需要单机8卡资源,设置为1。 Qwen3-30B-A3B模型训练需要16卡资源,设置为2。 Qwen3-32B模型训练需要16卡资源,设置为2。 |
Qwen3-8B:1 Qwen3-30B-A3B:2 Qwen3-32B:2 |
|
挂载存储 |
必选 |
单击“添加拓展存储OBS”,需要使用OBS存储训练产物。 |
拓展存储OBS |
|
存储位置:选择OBS桶中的训练输出路径 |
obs://mindspeed-llm/mindspeed-llm-a2/{output} |
||
|
云上挂载路径:训练容器中的训练产物输出路径 |
/home/ma-user/modelarts/outputs/output_dir_0 |
||
|
只读:表示挂载的OBS路径只能读,不能写。训练输出需要写入到OBS中,此处不能勾选。 |
不勾选 |
||
|
作业调度优先级 |
可选 |
训练作业调度优先级。 |
保持默认 |
|
允许被抢占 |
可选 |
开启后,当资源池剩余资源不足时,允许被抢占的作业可能会被终止并重新排队。为避免训练进度丢失,请在开启此功能前完成断点续训的设置。 |
不勾选 |
步骤四:高可用配置
根据表4填写训练作业高可用配置参数。
|
参数 |
是否可选 |
说明 |
示例 |
|---|---|---|---|
|
最大重启次数 |
可选 |
超过最大重启次数后发生故障,作业将被标记为失败。默认值为3。 |
保持默认 |
|
无条件自动重启 |
可选 |
只要系统检测到训练异常,就无条件重启训练作业。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。详细可了解:无条件自动重启。 |
勾选 |
|
作业卡死重启 |
可选 |
系统支持自动监控作业进程的状态和资源利用率来判定作业是否卡死,开启此开关后,支持将标记为卡死的作业进行进程级自动重启,以提高资源使用率。为了避免无效重启浪费算力资源,系统最多只支持连续作业卡死重启3次。 |
勾选 |
步骤五:访问配置
本方案中,访问配置涉及的在线调试、SSH远程开发等参数保持默认,不配置。
步骤六:可观测配置
本方案中,可观测配置涉及到的监控指标对接AOM参数保持默认,不配置。
步骤七:更多其他配置
根据表5填写训练作业高可用配置参数。
|
参数 |
是否可选 |
说明 |
示例 |
|---|---|---|---|
|
永久保存日志 |
必选 |
日志30天后会被清理,打开按钮后可保存至指定OBS路径。您也可以在作业详情页下载全部日志至本地。 |
勾选 |
|
作业可见范围 |
可选 |
默认为工作空间内可见,同一个工作空间内容的用户均可以查看此训练作业。 仅创建者可见:创建的训练作业对其他用户不可见。 |
工作空间内可见 |
|
自动停止 |
可选 |
开启后,当作业运行时开始计时,运行时间超出您预设的时长,它将自动停止运行。 |
不勾选 |
|
事件通知 |
可选 |
配置该选项后发生特定事件(如作业状态变化或者疑似卡死)后会发送通知(短信邮件等),发送通知涉及少量费用。 |
不勾选 |
|
标签 |
可选 |
如果您需要使用同一标签标识多种云资源,即所有服务均可在标签输入框下拉选择同一标签,需要在TMS中设置标签。 |
不勾选 |
最后,在创建训练作业页面底部,单击“提交”,确认信息后,单击“立即创建”,提交训练作业。
训练作业一般需要运行一段时间,可以前往训练作业列表或训练详情页,查看训练作业的基本情况。
训练完成后,请参考查看训练结果输出章节查看训练日志和性能。训练输出结果存放在OBS桶中。
了解更多ModelArts训练功能,可查看ModelArts模型训练。