方案概述
场景描述
本文档介绍了在ModelArts的Lite Server上基于AscendFactory训练框架,对业界主流的开源三方大模型进行训练的详细过程。训练使用的算力资源是Snt9b和Snt9b23。
AscendFactory是对多种训练框架的一个封装,当前支持MindSpeed-LLM(原ModelLink)、Llama-Factory、VeRL和MindSpeed-RL四种训练框架作为后端,提供一键式训练。
训练框架 |
预训练(PT) |
强化学习 |
微调(SFT) |
|
---|---|---|---|---|
GRPO |
Full |
LoRA |
||
Llama-Factory |
√ |
x |
√ |
√ |
MindSpeed-LLM |
√ |
x |
√ |
√ |
VeRL |
x |
√ |
x |
x |
MindSpeed-RL |
x |
√ |
x |
x |
方案架构

本架构描述了部署开源三方大模型训练的整体方案:
- 架构整体主要针对Lite Server场景下使用开源三方大模型给出建议方案,重点关注模型如何训练以及调优、运维等方面。
- 训练使用Lite Server + SFS Turbo作为基础设施进行模型部署,申请Lite server资源建议绑定EIP方便公网访问。
- 在使用三方大模型前需要基于昇腾云AscendFactory和配套的基础镜像制作镜像包,该容器镜像包承载指定的训练框架和配套的依赖包。
- 训练模型权重及过程文件存储建议使用SFS Turbo共享文件系统,并挂载至每个节点,该能力配合断点续训保障方案具备一定的可靠性;【可选】针对Snt9b23没有本地盘可以使用OBS/EVS云硬盘进行日志及文件存储。
- 【可选】推荐业务使用已经对接的云服务监控CES进行常见的监控指标查看、告警配置等。
使用流程

推荐您根据以下使用流程使用本解决方案部署开源三方大模型。
- 资源规划:参考“整体架构”选择部署方案后,结合支持的模型列表、特性及资源规划建议章节选择所需的算力资源、存储资源,以及接入层依赖资源。
- 训练准备:在华为云购买算力资源和存储资源后,需要下载基础镜像及昇腾软件包制作镜像,并完成对应模型开源权重、数据集准备。
- 训练执行:结合昇腾云针对各个模型推荐配置进行微调,并进行训练任务。
- 日志采集(可选):完成前面步骤后,您已完成基础的训练作业,基于可维护性考虑,您可以了解训练产生的关键日志,辅助关键问题定位。
- 监控告警(可选):系统已预置部分监控能力,该部分将推荐您查看常用监控指标,并结合已有能力完成监控告警配置。
- 配置调优(可选):当您想优化训练效率,该部分将针对部分场景给您一个建议调优方式,结合具体模型参数量和数据集的大小等辅助您进行探索。
- 断点续训(可选):在由于未知原因中断训练时,可结合断点续训内容进行配置并重新拉起训练作业。