版本说明和要求
软件包结构说明
本方案需要使用到的软件配套版本和依赖包获取地址如下表所示。
代码包名称 |
代码说明 |
下载地址 |
---|---|---|
AscendCloud-6.5.905-xxx.zip
说明:
软件包名称中的xxx表示时间戳。 |
本方案需要使用到的AscendCloud-6.5.905中的AscendCloud-LLM-xxx.zip软件包。 |
获取路径:Support-E,在此路径中查找下载ModelArts 6.5.905 版本。
说明:
如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 |
|——AscendCloud-LLM |──llm_train # 模型训练代码包 |──AscendFactory |──examples/ # config配置文件目录 |──config/modellink_performance_cfgs.yaml #mindspeed-llm参数文件 |──data.tgz # 样例数据压缩包 |──third-party/ # patch包 |──src/acs_train_solution/ # 训练运行包 |──intall.sh # 需要的依赖包 |──scripts_llamafactory/ # llamafactory兼容旧版本启动方式目录 |──scripts_modellink/ # mindspeed-llm兼容旧版本启动方式目录 |──Dockerfile |──dependences.yaml # 开源社区代码版本yaml文件
镜像版本说明
本教程中用到的训练基础镜像地址和配套版本关系如下表所示,请提前了解。
镜像用途 |
镜像地址 |
---|---|
基础镜像 Snt9B |
swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.1.rc1-py_3.10-hce_2.0.2503-aarch64-snt9b-20250514161205-a9c5055 |
基础镜像 Snt9B23 |
swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_ascend:pytorch_2.5.1-cann_8.1.rc1-py_3.10-hce_2.0.2503-aarch64-snt9b23-20250514161205-a9c5055 |
机型 |
模型 |
版本 |
---|---|---|
Snt9B |
CANN |
cann_8.1.rc1 |
驱动 |
24.1.0.6 |
|
PyTorch |
2.5.1 |
|
Snt9B23 |
CANN |
8.1.RC1 |
驱动 |
24.1.RC3.5 |
|
PyTorch |
2.5.1 |
工作目录介绍
${workdir} |──llm_train/AscendFactory # 模型训练代码包 # 手动创建 |──model/Qwen2-7B/ # 权重词表文件目录,如Qwen2-7B |──training_data # 原始数据集目录 |──output_dir #训练结果输出目录:yaml文件{output_dir}参数设置值 # 自动生成数据目录结构 |──preprocessed_data # 数据预处理目录 |──converted_hf2mg_weight_TP${TP}PP${PP} # 原始HF转MG格式权重目录 |──converted_mg2hf_weight # 训练完成权重MG转HF格式权重 |──saved_checkpoints # 训练完成MG格式权重 |──training_loss.png # loss曲线图 |──logs # 训练日志 |──xx-xx-<时间戳>-npu_info-R${RankID}.txt # 训练显存监控日志 |──xx-xx-<时间戳>-run_log-${Nodes}-${RankID}.txt # 训练过程运行日志