AscendFactory方案概述
AscendFactory介绍
AscendFactory是对多种训练框架的一个封装,当前支持MindSpeed-LLM(原ModelLink)、Llama-Factory、VeRL、MindSpeed-RL和MindSpeed-MM五种训练框架作为后端,提供一键式训练。
训练框架 |
预训练(PT) |
微调(SFT) |
强化学习 |
|
---|---|---|---|---|
Full |
LoRA |
|||
Llama-Factory |
√ |
√ |
√ |
√ |
MindSpeed-LLM |
√ |
√ |
√ |
x |
VeRL |
x |
x |
x |
√ |
MindSpeed-RL |
x |
x |
x |
√ |
MindSpeed-MM |
√ |
√ |
x |
x |
LLaMa-Factory框架介绍
LLaMa-Factory是开源社区中一个非常活跃的大模型训练框架,它的主打特点是简单易用,通过命令行或者WebUI界面可以轻松微调数百种大模型,包括大语言和多模态模型。LLaMa-Factory的底层是基于Transformers+DeepSpeed构建,对开源模型就有非常好的兼容性。
优点:
- 使用简单,内置了许多开源模型、训练方式、数据集,包含了训练、评测和推理部署多个流程。
- 兼容HuggingFace社区开源模型,可以开箱即用。
缺点:
- 使用zero并行,当前在大参数和长序列场景性能差。
- 数据是边读取边训练,在大数据集上断点续训dataloader会是瓶颈。
MindSpeed-LLM框架介绍
MindSpeed LLM是基于昇腾生态的大语言模型分布式训练框架,旨在为华为 昇腾芯片 生态合作伙伴提供端到端的大语言模型训练方案,包含分布式预训练、分布式指令微调以及对应的开发工具链,如:数据预处理、权重转换、在线推理、基线评估。
优点:
- 作为昇腾计算主打的训练框架,在性能上做了极致的优化,特别在大参数、大集群和MOE类型模型的训练性能突出;
- 兼容Megatron-LM框架,对于Megatron客户可以平滑迁移。
缺点:
- 因Megatron框架与HuggingFace开源模型架构不兼容,新模型适配门槛高,适配周期在2周左右;
- 输入数据集与开源格式不兼容,需要提前做一次转换;
- 权重文件格式与开源格式不兼容,需要来回转换。
VeRL框架介绍
VeRL是一个灵活、高效且被广泛使用的强化学习(RL)训练库,专为大型语言模型(LLM)设计。VeRL是论文 HybridFlow: A Flexible and Efficient RLHF Framework 的开源实现。
VeRL的灵活性和易用性体现在以下几个方面:
- 支持多样化的强化学习算法扩展:VeRL采用混合编程模型,结合了单一控制器和多控制器的优势,能够灵活表示和高效执行复杂的后训练数据流。用户只需几行代码即可构建强化学习数据流,例如 PPO、GRPO 等。
- 与现有大语言模型基础设施无缝集成:VeRL通过模块化 API 解耦计算和数据依赖,支持与 PyTorch FSDP、Megatron-LM、vLLM 等现有大语言模型框架无缝集成,且用户可以轻松扩展到其他训练和推理框架。
- 灵活的设备映射和并行性:VeRL支持将模型放置到不同 GPU 集合上,以实现高效的资源利用和跨不同集群规模的可扩展性。
- 与热门 HuggingFace 模型的及时集成:VeRL支持多种流行的 LLM 模型,包括 Qwen、Llama 等。
VeRL的高效性体现在以下几个方面:
- 最高效的吞吐量:VeRL集成了最先进的 LLM 训练和推理引擎,并实现了最先进的强化学习(RL)吞吐量。
- 使用 3D-HybridEngine 实现高效的 Actor 模型分片:消除内存冗余,并显著减少训练和生成阶段转换期间的通信开销。
MindSpeed-RL框架介绍
MindSpeed-RL是基于昇腾生态的强化学习加速框架,旨在为华为 昇腾芯片 生态合作伙伴提供端到端的RL训推解决方案,支持超大昇腾集群训推共卡/分离部署、多模型异步流水调度、训推异构切分通信等核心加速能力。
优势:
- 原生支持华为昇腾NPU,并提供开箱配套开发效率工具;社区专家响应积极迅速;
- 集成业界多种性能优化方案。指导文档清晰,提供配置开关供开发者快速上手使用;
- 提供业界知名大参数量模型的强化学习训练案例以及相关训练配置方案。
应用场景:
- 支持大型企业开展后训练任务以提升业务中的大模型理解(reasoning)能力
- 支持科研院校基于开源训练方案快速开展自研大模型技术研究。
MindSpeed-MM框架介绍
MindSpeed-MM是面向大规模分布式训练的昇腾多模态大模型套件,同时支持多模态生成及多模态理解,旨在为华为昇腾芯片提供端到端的多模态训练解决方案, 包含预置业界主流模型、数据工程、分布式训练及加速、预训练、微调、在线推理任务等特性。