更新时间:2025-08-27 GMT+08:00
分享

方案概述

场景描述

本文档介绍了在ModelArts的Lite Server上基于AscendFactory训练框架,对业界主流的开源三方大模型进行训练的详细过程。训练使用的算力资源是Snt9b和Snt9b23。

AscendFactory是对多种训练框架的一个封装,当前支持MindSpeed-LLM(原ModelLink)、Llama-Factory、VeRL和MindSpeed-RL四种训练框架作为后端,提供一键式训练。

表1 AscendFactory适配训练阶段和策略

训练框架

预训练(PT)

强化学习

微调(SFT)

GRPO

Full

LoRA

Llama-Factory

x

MindSpeed-LLM

x

VeRL

x

x

x

MindSpeed-RL

x

x

x

方案架构

图1 方案架构图

本架构描述了部署开源三方大模型训练的整体方案:

  • 架构整体主要针对Lite Server场景下使用开源三方大模型给出建议方案,重点关注模型如何训练以及调优、运维等方面。
  • 训练使用Lite Server + SFS Turbo作为基础设施进行模型部署,申请Lite server资源建议绑定EIP方便公网访问。
  • 在使用三方大模型前需要基于昇腾云AscendFactory和配套的基础镜像制作镜像包,该容器镜像包承载指定的训练框架和配套的依赖包。
  • 训练模型权重及过程文件存储建议使用SFS Turbo共享文件系统,并挂载至每个节点,该能力配合断点续训保障方案具备一定的可靠性;【可选】针对Snt9b23没有本地盘可以使用OBS/EVS云硬盘进行日志及文件存储。
  • 【可选】推荐业务使用已经对接的云服务监控CES进行常见的监控指标查看、告警配置等。

使用流程

图2 使用流程

推荐您根据以下使用流程使用本解决方案部署开源三方大模型。

  1. 资源规划:参考“整体架构”选择部署方案后,结合支持的模型列表特性资源规划建议章节选择所需的算力资源、存储资源,以及接入层依赖资源。
  2. 训练准备:在华为云购买算力资源和存储资源后,需要下载基础镜像及昇腾软件包制作镜像,并完成对应模型开源权重、数据集准备。
  3. 训练执行:结合昇腾云针对各个模型推荐配置进行微调,并进行训练任务。
  4. 日志采集(可选):完成前面步骤后,您已完成基础的训练作业,基于可维护性考虑,您可以了解训练产生的关键日志,辅助关键问题定位。
  5. 监控告警(可选):系统已预置部分监控能力,该部分将推荐您查看常用监控指标,并结合已有能力完成监控告警配置。
  6. 配置调优(可选):当您想优化训练效率,该部分将针对部分场景给您一个建议调优方式,结合具体模型参数量和数据集的大小等辅助您进行探索。
  7. 断点续训(可选):在由于未知原因中断训练时,可结合断点续训内容进行配置并重新拉起训练作业。

相关文档