更新时间:2025-07-29 GMT+08:00
分享

版本说明和要求

软件包结构说明

本方案需要使用到的软件配套版本和依赖包获取地址如下表所示。

表1 模型对应的软件包获取地址

代码包名称

代码说明

下载地址

AscendCloud-6.5.905-xxx.zip

说明:

软件包名称中的xxx表示时间戳。

本方案需要使用到的AscendCloud-6.5.905中的AscendCloud-LLM-xxx.zip软件包。

获取路径:Support-E,在此路径中查找下载ModelArts 6.5.905 版本。

说明:

如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。

AscendCloud-LLM代码包关键训练文件介绍如下:
|——AscendCloud-LLM
  |──llm_train                    # 模型训练代码包
    |──AscendFactory   
      |──examples/                # config配置文件目录
         |──config/modellink_performance_cfgs.yaml #mindspeed-llm参数文件
      |──data.tgz                 # 样例数据压缩包
      |──third-party/             # patch包
      |──src/acs_train_solution/  # 训练运行包
      |──intall.sh                # 需要的依赖包
      |──scripts_llamafactory/    # llamafactory兼容旧版本启动方式目录
      |──scripts_modellink/       # mindspeed-llm兼容旧版本启动方式目录
      |──Dockerfile
      |──dependences.yaml         # 开源社区代码版本yaml文件       

镜像版本说明

本教程中用到的训练基础镜像地址和配套版本关系如下表所示,请提前了解。

表2 基础容器镜像地址

镜像用途

镜像地址

基础镜像 Snt9B

swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.1.rc1-py_3.10-hce_2.0.2503-aarch64-snt9b-20250514161205-a9c5055

基础镜像 Snt9B23

swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.1.rc1-py_3.10-hce_2.0.2503-aarch64-snt9b23-20250514161205-a9c5055

表3 模型镜像版本

机型

模型

版本

Snt9B

CANN

cann_8.1.rc1

驱动

24.1.0.6

PyTorch

2.5.1

Snt9B23

CANN

8.1.RC1

驱动

24.1.RC3.5

PyTorch

2.5.1

工作目录介绍

详细的工作目录参考如下,建议参考以下要求设置工作目录。
${workdir}
    |──llm_train/AscendFactory     # 模型训练代码包
    # 手动创建  
    |──model/Qwen2-7B/             # 权重词表文件目录,如Qwen2-7B 
    |──training_data               # 原始数据集目录 
    |──output_dir         #训练结果输出目录:yaml文件{output_dir}参数设置值
        # 自动生成数据目录结构
        |──preprocessed_data                      # 数据预处理目录
        |──converted_hf2mg_weight_TP${TP}PP${PP}  # 原始HF转MG格式权重目录
        |──converted_mg2hf_weight                 # 训练完成权重MG转HF格式权重
        |──saved_checkpoints                      # 训练完成MG格式权重
        |──training_loss.png                      # loss曲线图
        |──logs                                   # 训练日志
        |──xx-xx-<时间戳>-npu_info-R${RankID}.txt          # 训练显存监控日志
        |──xx-xx-<时间戳>-run_log-${Nodes}-${RankID}.txt   # 训练过程运行日志

相关文档