更新时间:2025-07-29 GMT+08:00
分享

版本说明和要求

软件包结构说明

本方案需要使用到的软件配套版本和依赖包获取地址如下表所示。

表1 模型对应的软件包获取地址

代码包名称

代码说明

下载地址

AscendCloud-6.5.902-xxx.zip

说明:

软件包名称中的xxx表示时间戳。

本方案需要使用到的AscendCloud-6.5.902中的AscendCloud-LLM-xxx.zip软件包。代码包具体说明请参见AscendCloud-LLM代码包说明

获取路径:Support-E,在此路径中查找下载ModelArts 6.5.902 版本。

说明:

如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。

  • AscendCloud-LLM代码包关键训练文件介绍如下:
    |——AscendCloud-LLM
      |──llm_train                    # 模型训练代码包
        |──AscendFactory   
          |──examples/                # config配置文件目录
             |──config/modellink_performance_cfgs.yaml #mindspeed-llm参数文件
          |──data.tgz                 # 样例数据压缩包
          |──third-party/             # patch包
          |──src/acs_train_solution/  # 训练运行包
          |──intall.sh                # 需要的依赖包
          |──scripts_llamafactory/    # llamafactory兼容旧版本启动方式目录
          |──scripts_modellink/       # mindspeed-llm兼容旧版本启动方式目录
          |──Dockerfile
          |──dependences.yaml         # 开源社区代码版本yaml文件       

镜像版本说明

本教程中用到的训练基础镜像地址和配套版本关系如下表所示,请提前了解。

表2 基础容器镜像地址

镜像用途

镜像地址

基础镜像 Snt9B

swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_3_ascend:pytorch_2.3.1-cann_8.0.rc3-py_3.10-hce_2.0.2409-aarch64-snt9b-20241213131522-aafe527

基础镜像 Snt9B23 MindSpeed-LLM

swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.10-hce_2.0.2412-aarch64-snt9b23-20250315172739-f66f096

表3 模型镜像版本

机型

模型

版本

Snt9B

CANN

cann_8.0.rc3

驱动

24.1.0.6

PyTorch

2.3.1

Snt9B23

CANN

cann_8.0.rc3

驱动

24.1.RC3

PyTorch

2.1

工作目录介绍

详细的工作目录参考如下,建议参考以下要求设置工作目录。
${workdir}
    |──llm_train/AscendFactory     # 模型训练代码包
    # 手动创建  
    |──model/Qwen2-7B/             # 权重词表文件目录,如Qwen2-7B 
    |──training_data               # 原始数据集目录 
    |──output_dir         #训练结果输出目录:yaml文件{output_dir}参数设置值
        # 自动生成数据目录结构
        |──preprocessed_data                      # 数据预处理目录
        |──converted_hf2mg_weight_TP${TP}PP${PP}  # 原始HF转MG格式权重目录
        |──converted_mg2hf_weight                 # 训练完成权重MG转HF格式权重
        |──saved_checkpoints                      # 训练完成MG格式权重
        |──training_loss.png                      # loss曲线图
        |──logs                                   # 训练日志
        |──xx-xx-<时间戳>-npu_info-R${RankID}.txt          # 训练显存监控日志
        |──xx-xx-<时间戳>-run_log-${Nodes}-${RankID}.txt   # 训练过程运行日志

相关文档