方案概述
场景描述
本文档介绍了在ModelArts上基于MindSpeed-LLM训练框架,对业界主流的开源三方大模型进行微调训练的详细过程。
MindSpeed-LLM框架介绍
MindSpeed-LLM是基于昇腾生态的大语言模型分布式训练套件,旨在为华为 昇腾芯片 生态合作伙伴提供端到端的大语言模型训练方案,包含分布式预训练、分布式指令微调以及对应的开发工具链,如:数据预处理、权重转换、在线推理、基线评估等。
支持的模型列表
|
训练模型 |
训练场景 |
Megatron |
训练框架 |
训练所需最小卡数 |
|---|---|---|---|---|
|
Qwen3-8B |
SFT |
√ |
MindSpeed-LLM |
Snt9b2 8卡 |
|
Qwen3-30B-A3B |
SFT |
√ |
MindSpeed-LLM |
Snt9b2 16卡 |
|
Qwen3-32B |
SFT |
√ |
MindSpeed-LLM |
Snt9b2 16卡 |
约束限制
- 本方案适用西南-贵阳一区域,专属资源池、OBS、ModelArts训练作业都要求在西南-贵阳一创建。
- 训练使用的算力资源是Snt9b2。
训练待准备资源和文件列表
|
序号 |
准备项 |
是否必选 |
说明 |
|---|---|---|---|
|
1 |
ModelArts算力资源 |
是 |
推荐使用ModelArts专属资源池中的Snt9b资源,专属资源池需要提前创建。 |
|
2 |
OBS桶 |
是 |
由于ModelArts创建训练作业时,需要从OBS桶中获取模型权重文件、训练数据、训练脚本,并将训练产物输出至OBS桶中,因此创建OBS桶为必选项。 |
|
3 |
模型权重文件 |
是 |
训练所需模型文件,需要用户提前准备,本文档提供了下载地址。 |
|
4 |
训练数据集 |
是 |
训练所需数据集,需要用户提前准备,本文档提供了下载地址。 |
|
5 |
训练相关脚本 |
是 |
包括数据集预处理脚本、训练作业启动脚本等,需要用户提前准备,本文档中提供了脚本样例,可以直接使用。 |
|
6 |
训练环境镜像 |
否 |
训练镜像已经预置在训练平台中,无需用户准备,在创建训练作业时直接选择即可。 该镜像中包含了训练所需环境必备软件,例如:Cann包、驱动、PyTorch、训练框架代码包等。 |