版本说明和要求

训练软件包版本差异说明

本文档支持昇腾云6.5.906及以后版本，最新版本是6.5.912。推荐使用最新版本配套的软件包和镜像。

表1 版本差异说明
版本	说明
6.5.912	相较于6.5.911，6.5.912有以下新增支持特性： VeRL强化学习框架：支持fsdp1, fsdp2 支持Rollout Correction 支持Rollout Skip LLaMA-Factory框架：升级0.9.4 支持部署InternS1&InternS1-mini 支持Qwen3-VL-8B的SFT MindSpeed-LLM框架：支持多样本pack预训练支持多轮对话微调支持step级快恢 MindSpeed-MM框架：支持Qwen3-VL-8B的SFT
6.5.911	相较于6.5.910，6.5.911有以下新增支持特性： VeRL强化学习框架： 1. 支持vllm版本至0.11.0 2. 支持Qwen3-30B-A3B长序列64k的GRPO 3. 支持Qwen3-VL-30B-A3B-Instruct的GRPO MindSpeed-RL强化学习框架： 1. 支持数据并行负载均衡特性（DP Batch Balance） 2. 支持动态批大小特性（Dynamic Batch Size） 3. 支持Qwen3-30B-A3B模型GRPO强化学习长序列并行 LLaMA-Factory框架： 1. 支持InternVL2_5-1B/2B, InternVL2_5-8B, InternVL3-1B-Instruct, InternVL3-8B-Instruct的lora微调 2. 支持Qwen2.5-1.5B的预训练和微调 3. 优化llamafactory长序列训练能力，支持序列并行场景下开启packing。 MindSpeed-LLM框架： 1. 支持DeepSeek-V2-Lite 16B、Qwen3-30B-A3B的Lora微调 2. 支持Qwen3-8B长序列32K句长的预训练、微调 3. 支持Qwen3-30B-A3B长序列64k的微调
6.5.910	相较于6.5.908版本，6.5.910有以下新增支持特性： VeRL强化学习框架：新增异步rollout、工具调用功能；新增训推分离功能one-step off-policy；新增支持DAPO/GRPO中LoRA微调；精度工具支持内存snapshot和精度数据采集解耦；精度工具支持Mock推理功能中NPU和GPU数据随机保序采样重用。 MindSpeed-RL框架：新增支持填充移除（Remove Padding）。 MindSpeed-MM框架：新增支持Qwen2.5VL- 7B、InternVL3-8B模型的预训练和微调。 MindSpeed-LLM框架：Qwen2.5-7B/32B/72B支持32K长序列。
6.5.908	相对于6.5.907版本，6.5.908有以下新增支持特性： VeRL强化学习框架：新增Qwen2.5-VL-72B DAPO、Qwen3-30B-A3B GRPO/DAPO、Qwen2.5-72B GRPO/DAPO；新增支持Megatron训练后端； 32k长序列：Qwen2.5-72B、Qwen3-8B、Qwen3-32B、Qwen2.5-VL-7B；新增精度数据采集工具。 Llama-Factory框架：新增支持长序列并行（Ulysses）； 32k长序列场景：Qwen3-8B、Qwen2.5-VL-7B、Qwen2.5-VL-32B的Full微调； MindSpeed-LLM框架：32k长序列，Qwen2.5-0.5B/1.5B/7B/14B/32B/72B、Qwen3-0.6/1.7B/4B/14B/32B、Qwen3-30B-A3B； MindSpeed-RL框架：新增Qwen2.5-VL-3B、Qwen2.5-VL-7B、Qwen2.5-32B、Qwen3-32B 、Qwen3-30B-A3B模型的GRPO； 32k长序列：Qwen2.5-32B。
6.5.907	相对于6.5.906版本，6.5.907有以下新增支持特性： VeRL强化学习框架：新增Qwen2.5VL系列/Qwen3系列模型/Qwen2.5系列模型支持PPO/DAPO/GRPO。 Llama-Factory框架：新增Qwen2.5-14B、Qwen2.5-VL-7B、Qwen2.5-72B支持DPO强化学习 MindSpeed-MM框架：新增Qwen2.5VL-7B、Qwen2.5VL-3B模型支持预训练和微调。相对于6.5.906版本，6.5.907有以下特性变更不支持： Llama-Factory框架：Internvl2.5-8B、Internvl2.5-38B、Internvl2.5-78B不支持full和lora微调。
6.5.906	相对于6.5.905版本，6.5.906有以下特性变更： MindSpeed_RL强化学习框架：支持Qwen2.5系列模型的GRPO算法训练。 VeRL强化学习框架：支持大语言模型Qwen3-8B、多模态模型Qwen2.5_vl系列模型。

训练框架版本

LlamaFactory框架版本：0.9.4
MindSpeed-LLM框架版本：2.2.0
MindSpeed-MM框架版本：2.2.0
VeRL框架版本：0.5.0.dev

基础镜像版本

本教程中用到的训练基础镜像地址和配套版本关系如下表所示，请提前了解。

表2 基础容器镜像地址
镜像用途	适用区域	镜像地址	配套版本
基础镜像Snt9b	西南-贵阳一	LLaMA-Factory、MindSpeed-LLM使用： swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.2.rc2-py_3.11-hce_2.0.2509-aarch64-snt9b-20251105194139-a70c13c VeRL、MindSpeed-MM使用： swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.7.1-cann_8.3.rc1-py_3.11-hce_2.0.2509-aarch64-snt9b-20251111171115-ca4b9da	6.5.912
	华东二	LLaMA-Factory、MindSpeed-LLM使用： swr.cn-east-4.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.2.rc2-py_3.11-hce_2.0.2509-aarch64-snt9b-20251105194139-a70c13c VeRL、MindSpeed-MM使用： swr.cn-east-4.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.7.1-cann_8.3.rc1-py_3.11-hce_2.0.2509-aarch64-snt9b-20251111171115-ca4b9da
	中国-香港	LLaMA-Factory、MindSpeed-LLM使用： swr.ap-southeast-1.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.2.rc2-py_3.11-hce_2.0.2509-aarch64-snt9b-20251105194139-a70c13c VeRL、MindSpeed-MM使用： swr.ap-southeast-1.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.7.1-cann_8.3.rc1-py_3.11-hce_2.0.2509-aarch64-snt9b-20251111171115-ca4b9da
基础镜像Snt9b23	西南-贵阳一	LLaMA-Factory、MindSpeed-LLM使用： swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.2.rc2-py_3.11-hce_2.0.2509-aarch64-snt9b23-20251106111344-87d9583 VeRL、MindSpeed-MM使用： swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.7.1-cann_8.3.rc1-py_3.11-hce_2.0.2509-aarch64-snt9b23-20251119122703-d180abf	6.5.912
	华东二	LLaMA-Factory、MindSpeed-LLM使用： swr.cn-east-4.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.2.rc2-py_3.11-hce_2.0.2509-aarch64-snt9b23-20251106111344-87d9583 VeRL、MindSpeed-MM使用： swr.cn-east-4.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.7.1-cann_8.3.rc1-py_3.11-hce_2.0.2509-aarch64-snt9b23-20251119122703-d180abf
	中国-香港	LLaMA-Factory、MindSpeed-LLM使用： swr.ap-southeast-1.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.2.rc2-py_3.11-hce_2.0.2509-aarch64-snt9b23-20251106111344-87d9583 VeRL、MindSpeed-MM使用： swr.ap-southeast-1.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.7.1-cann_8.3.rc1-py_3.11-hce_2.0.2509-aarch64-snt9b23-20251119122703-d180abf

表3 模型镜像版本（LLaMA-Factory、MindSpeed-LLM使用）
机型	模型	版本
Snt9b	CANN	8.2.RC2
	驱动	24.1.0.6
	PyTorch	2.5.1
Snt9b23	CANN	8.2.RC2
	驱动	25.2.1
	PyTorch	2.5.1

表4 模型镜像版本（VeRL、MindSpeed-MM使用）
机型	模型	版本
Snt9b	CANN	8.3.RC1
	驱动	25.2.1
	PyTorch	2.7.1
Snt9b23	CANN	8.3.RC1
	驱动	25.2.1
	PyTorch	2.7.1

软件包获取

本方案需要使用到的软件配套版本和依赖包获取地址如下表所示。

表5 软件配套版本和获取地址
昇腾云版本	软件名称	说明	下载地址
6.5.912	AscendCloud-6.5.912-timestamp.zip	包含了本教程中使用到的训练代码包。	1. 获取路径：Support-E。 2. 找到对应的版本：ModelArts 6.5.912 说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

软件包结构

AscendCloud-LLM代码包关键训练文件介绍如下：

|——AscendCloud-LLM
  |──llm_train/AscendFactory/     # 模型训练代码包
    |──install/                 # 各个框架的安装脚本包
    |──docker/                  # dockerfile文件目录       
    |──src                      # 训练运行包
      |──ascend_factory/        # 训练运行包
      |──open_source/           # 三方包git目录
      |──open_source_adaptor/   # ascend适配优化patch包目录
    |──install.sh                # 初始化环境执行脚本    
    |──data.tgz                 # 样例数据压缩包

父主题： 主流开源大模型适配NPU的AscendFactory训练框架开发指导

上一篇：各模型支持的最小卡数和序列长度

下一篇：训练服务配置说明