ModelArts Lite Server环境

步骤一：准备工作

已完成准备工作步骤。
生成模型训练config配置yaml文件，生成方式分为交互式、传参式两种，两者区别为传参式提前传入所需参数，交互式为命令执行后交互选择所需参数，客户自行选择其中一种方式即可。
1. 交互式，命令如下：
```
ascendfactory-cli config  --output_file_path=<output_file_path> 
```
2. 传参式，命令如下：
```
ascendfactory-cli config --backend=<backend> --af_model_name=<af_model_name> --exp_name=<exp_name> --output_file_path=<output_file_path>
```
  - <backend>：所选框架类型，可选【mindspeed-llm，llamafactory，verl】。
  - <af_model_name>：训练模型
  - <exp_name>：所选实验类型，MindSpeed-LLM和Llama-Factory微调可选【full-4k, lora-4k, full-8k, lora-8k】，MindSpeed-LLM框架选用预训练【PT】训练类型可选用【full-4k, full-8k】实验类型；VeRL实验类型为【grpo】。
  - <output_file_path>：yaml文件输出目录及文件名称，例如/path/to/xxx.yaml。
修改生成config配置yaml文件中关键参数值，参数详情可参考MindSpeed-LLM、Llama-Factory、VeRL【三选一】。
【VeRL框架】数据预处理：
1. 根据模型类型选择VeRL数据处理样例脚本内容拷贝至本地为dataset_demo.py，编辑脚本中dataset = datasets.load_dataset(xxx/xxx/xxx)的xxx/xxx/xxx值，填写原始数据集目录或文件的绝对或相对路径。
2. 本地执行以下命令：
```
python  dataset_demo.py --local_dir=/data/verl-workdir/data/xxx/
```
  - --local_dir：数据处理输出后的数据集路径

步骤二：启动任务

任意目录都可执行训练命令，如新建test_benchmark目录下，预训练及微调阶段模型最小卡数参考模型最小卡数配置按自己实际情况决定。

单机<可选>：

# 默认8卡
ascendfactory-cli train <cfgs_yaml_file> --env.MASTER_ADDR=localhost --env.NNODES=1 --env.NODE_RANK=0
# 指定设备卡数，如2卡
ASCEND_RT_VISIBLE_DEVICES=0,1 ascendfactory-cli train <cfgs_yaml_file> --env.MASTER_ADDR=localhost --env.NNODES=1 --env.NODE_RANK=0
# 指定修改yaml中某个参数内容，如af_output_dir等值，使用超参命令传递形式：
ASCEND_RT_VISIBLE_DEVICES=0,1 ascendfactory-cli train <cfgs_yaml_file> --af_output_dir=xxx --env.MASTER_ADDR=localhost --env.NNODES=1 --env.NODE_RANK=0

多机<可选>多机同时执行：

# 使用已修改完成yaml文件，不传参修改参数
ascendfactory-cli train <cfgs_yaml_file> --env.MASTER_ADDR=localhost --env.NNODES=1 --env.NODE_RANK=0 
# 指定修改yaml中某个参数内容，如af_output_dir等值，使用超参命令传递形式：
ascendfactory-cli train <cfgs_yaml_file> --env.MASTER_ADDR=<master_addr> --env.NNODES=<nnodes> --env.NODE_RANK=<rank> --af_output_dir=xxx

<cfgs_yaml_file>：config配置yaml文件相对或绝对路径地址，如

--env.MASTER_ADDR=<master_addr>：主master节点IP，一般选rank 0为主master。
--env.NNODES=<nnodes>：训练节点总个数。
--env.NODE_RANK=<rank>：节点ID，从0开始，一般选rank 0为主master。
--超参<key>：参数key可参考MindSpeed-LLM、Llama-Factory、VeRL根据要求选择。

步骤三 lora权重合并

微调（SFT-lora）训练方式训练完成后只产出lora训练权重结果，未与原始权重合并，因此需手动合并权重，执行步骤如下：

参考三方官方merge_lora/llama3_lora_sft.yaml文件修改配置：
- model_name_or_path：原始权重目录路径
- adapter_name_or_path：训练产出的lora权重结果目录路径
- template：训练样例参数，可参考模型template
- export_legacy_format：训练权重格式，可选【true false】,true表示生成.bin格式，false生成.safetensors格式。
- export_dir：权重合并后输出目录
执行lora合并命令：
```
llamafactory-cli export  <merge_lora_yaml>
```
- <merge_lora_yaml>：lora合并yaml目录绝对或相对路径

父主题： 执行训练任务

上一篇：执行训练任务

下一篇：ModelArts Standard环境

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问