更新时间:2025-10-22 GMT+08:00
分享

方案概述

场景描述

本文档介绍了在ModelArts的Lite Cluster上基于AscendFactory训练框架,对业界主流的开源三方大模型进行训练的详细过程。训练使用的算力资源是Snt9b和Snt9b23,本文将以Snt9b23资源为例介绍训练过程。

AscendFactory是对多种训练框架的一个封装,当前支持Llama-Factory、MindSpeed-LLM(原ModelLink)、VeRL、MindSpeed-RL和MindSpeed-MM五种训练框架作为后端,提供一键式训练。

表1 AscendFactory适配训练阶段和策略

训练框架

预训练(PT)

微调(SFT)

强化学习

LoRA

Full

Llama-Factory

MindSpeed-LLM

x

VeRL

x

x

x

MindSpeed-RL

x

x

x

MindSpeed-MM

x

x

方案架构

图1 方案架构图

本架构描述了部署开源三方大模型训练的整体方案:

  • 架构整体主要针对Lite Cluster场景下使用开源三方大模型给出建议方案,重点关注模型如何训练以及运维快恢等方面。
  • 训练使用Lite Cluster +CCE+ SFS Turbo作为基础设施进行模型部署,存储考虑使用SFS Turbo+OBS联动提升可靠性。
  • 在使用三方大模型前需要基于昇腾云AscendFactory和配套的基础镜像制作镜像包,该容器镜像包承载指定的训练框架和配套的依赖包。
  • 【可选】推荐业务使用云服务监控AOM/CES进行常见的监控指标查看、告警配置等,并通过昇腾云脑进行故障诊断及巡检。
  • 【可选】推荐预留部分资源进行冗余备份,针对资源级别故障可进行快速感知并加速训练任务恢复过程。

约束限制

  • 本文档中的模型运行环境是ModelArts Lite Cluster。
  • 本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。
  • 确保集群可以访问公网。
  • 本方案目前仅适用于企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。

使用流程

图2 使用流程

推荐您根据以下流程使用本解决方案部署开源三方大模型。

  1. 资源规划:参考“整体架构”选择部署方案后,结合项目需求评估所需的算力资源、存储资源,以及接入层依赖资源。

    资源规划

    说明

    查看模型列表

    参考对应昇腾云版本的《训练框架开发指南》。

    查看特性列表

    查看推荐资源

  2. 训练准备工作:在华为云购买算力资源和存储资源后,需要下载基础镜像及昇腾软件包制作镜像,并完成对应模型开源权重、数据集准备。
  3. 执行训练任务:结合昇腾云针对各个模型推荐配置进行微调,并进行训练任务。
  4. 训练结果输出(可选):完成前面步骤后,您已完成基础的训练作业,基于可维护性考虑,您可以了解训练产生的关键日志,辅助关键问题定位。
  5. 配置监控告警:系统已预置部分监控能力,该部分将推荐您查看常用监控指标,并结合已有能力完成监控告警配置。
  6. 故障快恢(可选):资源故障后可通过HA进行资源级恢复;可参考任务级快恢方案的实践构建客户自己任务级快恢的能力。

相关文档