更新时间:2026-02-05 GMT+08:00
分享

方案概述

场景描述

本文档介绍了在ModelArts上基于MindSpeed-LLM训练框架,对业界主流的开源三方大模型进行微调训练的详细过程。

MindSpeed-LLM框架介绍

MindSpeed-LLM是基于昇腾生态的大语言模型分布式训练套件,旨在为华为 昇腾芯片 生态合作伙伴提供端到端的大语言模型训练方案,包含分布式预训练、分布式指令微调以及对应的开发工具链,如:数据预处理、权重转换、在线推理、基线评估等。

支持的模型列表

表1 支持的大语言模型列表

训练模型

训练场景

Megatron

训练框架

训练所需最小卡数

Qwen3-8B

SFT

MindSpeed-LLM

Snt9b2 8卡

Qwen3-30B-A3B

SFT

MindSpeed-LLM

Snt9b2 16卡

Qwen3-32B

SFT

MindSpeed-LLM

Snt9b2 16卡

约束限制

  • 本方案适用西南-贵阳一区域,专属资源池、OBS、ModelArts训练作业都要求在西南-贵阳一创建。
  • 训练使用的算力资源是Snt9b2

训练待准备资源和文件列表

表2 训练涉及到资源和数据文件

序号

准备项

是否必选

说明

1

ModelArts算力资源

推荐使用ModelArts专属资源池中的Snt9b资源,专属资源池需要提前创建。

2

OBS桶

由于ModelArts创建训练作业时,需要从OBS桶中获取模型权重文件、训练数据、训练脚本,并将训练产物输出至OBS桶中,因此创建OBS桶为必选项。

3

模型权重文件

训练所需模型文件,需要用户提前准备,本文档提供了下载地址。

4

训练数据集

训练所需数据集,需要用户提前准备,本文档提供了下载地址。

5

训练相关脚本

包括数据集预处理脚本、训练作业启动脚本等,需要用户提前准备,本文档中提供了脚本样例,可以直接使用。

6

训练环境镜像

训练镜像已经预置在训练平台中,无需用户准备,在创建训练作业时直接选择即可。

该镜像中包含了训练所需环境必备软件,例如:Cann包、驱动、PyTorch、训练框架代码包等。

操作流程

表3 操作任务流程说明

阶段

任务

说明

准备工作

配置云资源

准备训练所需的专属资源池,准备OBS桶。

准备模型权重与训练数据

准备模型权重文件、训练数据集,数据处理脚本文件,并将这些文件上传到OBS桶中。

准备训练脚本

训练所需要的脚本文件提前按要求准备好,并上传至OBS桶中。

训练

执行训练任务

创建训练作业,在创建过程中选择预置的训练环境镜像,选择训练所需资源规格,设置输入输出等参数。

查看训练结果

查看训练日志

查看训练后的日志,训练的性能结果。

获取训练输出结果

在训练任务中设置的输出路径下获取训练后的模型。

相关文档