AscendFactory方案概述

AscendFactory介绍

AscendFactory是华为云推出的分布式训练框架，当前支持开源的MindSpeed-LLM（原ModelLink）、Llama-Factory、VeRL和MindSpeed-MM训练框架作为后端，提供统一的训练API接口和自动化配置方式，具有配置简单、开箱性能优、预制主流模型、支持多框架等特性。

表1 AscendFactory适配训练阶段和策略
训练框架	预训练(PT)/中期训练	后训练-微调(SFT)		后训练-强化学习
训练框架	预训练(PT)/中期训练	Full	LoRA	后训练-强化学习
Llama-Factory	√	√	√	√
MindSpeed-LLM	√	√	√	x
VeRL	x	x	x	√
MindSpeed-MM	√	√	x	x

LLaMa-Factory框架介绍

LLaMa-Factory是开源社区中一个非常活跃的大模型训练框架，它的主打特点是简单易用，通过命令行或者WebUI界面可以轻松微调数百种大模型，包括大语言和多模态模型。LLaMa-Factory的底层是基于Transformers+DeepSpeed构建，对开源模型就有非常好的兼容性。

优点：

使用简单，内置了许多开源模型、训练方式、数据集，包含了训练、评测和推理部署多个流程。
兼容HuggingFace社区开源模型，可以开箱即用。

缺点：

使用zero并行，当前在大参数和长序列场景性能差。
数据是边读取边训练，在大数据集上断点续训dataloader会是瓶颈。

MindSpeed-LLM框架介绍

MindSpeed LLM是基于昇腾生态的大语言模型分布式训练框架，旨在为华为昇腾芯片生态合作伙伴提供端到端的大语言模型训练方案，包含分布式预训练、分布式指令微调以及对应的开发工具链，如：数据预处理、权重转换、在线推理、基线评估。

优点：

作为昇腾计算主打的训练框架，在性能上做了极致的优化，特别在大参数、大集群和MOE类型模型的训练性能突出。
兼容Megatron-LM框架，对于Megatron客户可以平滑迁移。

缺点：

因Megatron框架与HuggingFace开源模型架构不兼容，新模型适配门槛高，适配周期较长。
输入数据集与开源格式不兼容，需要提前做一次转换。
权重文件格式与开源格式不兼容，需要来回转换。

VeRL框架介绍

VeRL是一个灵活、高效且被广泛使用的强化学习（RL）训练库，当前后训练的事实标准框架。VeRL是论文 HybridFlow: A Flexible and Efficient RLHF Framework 的开源实现。

VeRL的灵活性和易用性体现在以下几个方面：

支持多样化的强化学习算法扩展：VeRL采用混合编程模型，结合了单一控制器和多控制器的优势，能够灵活表示和高效执行复杂的后训练数据流。用户只需几行代码即可构建强化学习数据流，例如 PPO、GRPO 等。
与现有大语言模型基础设施无缝集成：VeRL通过模块化 API 解耦计算和数据依赖，支持与 PyTorch FSDP、Megatron-LM、vLLM 等现有大语言模型框架无缝集成，且用户可以轻松扩展到其他训练和推理框架。
灵活的设备映射和并行性：VeRL支持将模型放置到不同 GPU 集合上，以实现高效的资源利用和跨不同集群规模的可扩展性。
与热门 HuggingFace 模型的及时集成：VeRL支持多种流行的 LLM 模型，包括 DeepSeek、Qwen、Llama 等。

VeRL的高效性体现在以下几个方面：