训练服务评测

介绍如何使用benchmark工具对训练性能（吞吐）、精度（loss、下游打分）开展评测对比，对比结果以excel文件呈现，方便用户验证发布模型的质量。评测包括以下两部分：

性能评测
精度评测

约束限制

训练服务评测目前仅适配了Lite Server环境部署的微调（SFT）训练阶段。

性能评测

流程图：
图1 训练性能测试流程

详细步骤：

已完成ModelArts Lite Server环境训练任务。
3.1 训练任务中同级目录执行性能比较脚本，如test-benchmark目录。
```
ascendfactory-cli performance <cfgs_yaml_file> --baseline <baseline> --o <output_dir>
```
- <cfgs_yaml_file>：yaml文件地址：config目录中yaml相对或绝对路径，如performance_cfgs.yaml或modellink_performance_cfgs.yaml，此配置文件为训练最优配置参数。
- --baseline <baseline>：<可选>GP-Ant8机器性能基线yaml文件路径，用户可自行修改，不填则使用自带基线配置config目录下xxx_performance_baseline.yaml，基线样例配置如下：
- --o <output_dir>： <可选>任务完成输出excel表格路径，默认为"./"当前所在路径。
查看性能结果excel表格：${model_name}_train_performance_benchmark_<版本号>_<时间戳>.xlsx，${model_name}为所选框架名称。
Llama-Factory表格样例如下：

MindSpeed-LLM表格样例如下：

精度评测

流程图
图2 训练精度测试流程图

约束限制

在精度评估过程中，通常为每个模型系列选择一种评估，具体模型适配情况如下表所示：

表1 精度适配模型
模型名称	MindSpeed-LLM	Llama-Factory
qwen2.5-7b	√	√
qwen2-7b	√	√
llama3.2-3b	√	√
llama3.1-8b	√	√
glm4-9b	√	x

详细步骤：
1. 已完成ModelArts Lite Server环境训练任务。
2. 进入3 训练任务执行训练命令同级目录，如test-benchmark目录。
3. 执行下游评估命令。
  Llama-Factory为增加精度评测的稳定性及进一步确保训练精度，使用多个数据集【MMLU、CEVAL】评测，路径为AscendFactory/third_party/LLaMA-Factory/evaluation目录下；MindSpeed-LLM目前仅适配gsm8k数据集执行过程如下：
```
ascendfactory-cli eval <cfgs_yaml_file>  --dataset=<dataset>  
--model_name=<model_name> --run_type=<run_type> --model_name_or_path=<model_name_or_path>  --output_dir=<output_dir>
```
  - <cfgs_yaml_file>：精度评估配置的yaml文件地址，config目录accuracy_cfgs.yaml相对或绝对路径
  - --dataset <dataset>：评估数据集，根据所选框架选择不同数据集类型名称；
    - Llama-Factory可选值:【all、mmlu、ceval】，默认值为all，用户只需选择参数即可，数据集路径eval接口已指定好。
    - MindSpeed-LLM：默认gsm8k，用户只需选择参数即可，路径eval接口已指定好
  - --model_name <model_name>：训练模型名
  - --run_type <run_type>：训练类型：【full 、 lora】
  - --output_dir <output_dir>: 模型训练完成输出权重地址，与训练output_dir配置内容一致。
  - --model_name_or_path <model_name_or_path>：原始权重地址。
4. 执行精度比较脚本。
```
ascendfactory-cli accuracy <cfgs_yaml_file> --o <output_dir> --baseline <baseline>
```
  - <cfgs_yaml_file>：精度测试配置的yaml文件地址，精度评估配置的yaml文件地址，config目录accuracy_cfgs.yaml相对或绝对路径
  - --o <output_dir>： <可选>任务完成输出excel表格路径，默认为"./"当前所在路径
  - --baseline <baseline>：<可选>GP-Ant8机器精度基线Yaml文件路径，不填则使用自带基线配置config目录下accuracy_baseline.yaml，包含loss、score、mmlu_score、ceval_score基线值；Llama-Factory默认基线配置样例如下：
5. 查看精度结果。
  - 生成excel表格：${model_name}_train_accuracy_benchmark_<版本号>_<时间戳>.xlsx,${model_name}为所选框架名称。
    Llama-Factory表格样例截图：
    
    MindSpeed-LLM表格样例截图：
  - 生成ceval_validation、mmlu_test评估目录（仅Llama-Factory）根据3中数据集决定包含json及log文件，结果如下：
    ceval_validation或mmlu_test
    - results.log
    - results.json

客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置，权重使用表1中指定的Huggingface地址，数据指定data.tgz里面提供的gsm8k和AscendFactory/third_party/LLaMA-Factory/evaluation下的mmlu、ceval数据。

父主题： 主流开源大模型基于ModelArts Standard&Lite Server适配AscendFactory PyTorch NPU训练指导（6.5.902）

上一篇：训练结果输出

下一篇：训练服务配置说明