训练服务评测
介绍如何使用benchmark工具对训练性能(吞吐)、精度(loss、下游打分)开展评测对比,对比结果以excel文件呈现,方便用户验证发布模型的质量。评测包括以下两部分:
约束限制
训练服务评测目前仅适配了Lite Server环境部署的微调(SFT)训练阶段。
性能评测
- 流程图:
图1 训练性能测试流程
- 详细步骤:
- 已完成ModelArts Lite Server环境训练任务。
- 3.1 训练任务中同级目录执行性能比较脚本,如test-benchmark目录。
ascendfactory-cli performance <cfgs_yaml_file> --baseline <baseline> --o <output_dir>
- 查看性能结果excel表格:${model_name}_train_performance_benchmark_<版本号>_<时间戳>.xlsx,${model_name}为所选框架名称。
MindSpeed-LLM表格样例如下:
精度评测
- 流程图
图2 训练精度测试流程图
- 约束限制
在精度评估过程中,通常为每个模型系列选择一种评估,具体模型适配情况如下表所示:
表1 精度适配模型 模型名称
MindSpeed-LLM
Llama-Factory
qwen2.5-7b
√
√
qwen2-7b
√
√
llama3.2-3b
√
√
llama3.1-8b
√
√
glm4-9b
√
x
- 详细步骤:
- 已完成ModelArts Lite Server环境训练任务。
- 进入3 训练任务执行训练命令同级目录,如test-benchmark目录。
- 执行下游评估命令。
Llama-Factory为增加精度评测的稳定性及进一步确保训练精度,使用多个数据集【MMLU、CEVAL】评测,路径为AscendFactory/third_party/LLaMA-Factory/evaluation目录下;MindSpeed-LLM目前仅适配gsm8k数据集执行过程如下:
ascendfactory-cli eval <cfgs_yaml_file> --dataset=<dataset> --model_name=<model_name> --run_type=<run_type> --model_name_or_path=<model_name_or_path> --output_dir=<output_dir>
- <cfgs_yaml_file>:精度评估配置的yaml文件地址,config目录accuracy_cfgs.yaml相对或绝对路径
- --dataset <dataset>:评估数据集,根据所选框架选择不同数据集类型名称;
- Llama-Factory可选值:【all、mmlu、ceval】,默认值为all,用户只需选择参数即可,数据集路径eval接口已指定好。
- MindSpeed-LLM:默认gsm8k,用户只需选择参数即可,路径eval接口已指定好
- --model_name <model_name>:训练模型名
- --run_type <run_type>:训练类型:【full 、 lora】
- --output_dir <output_dir>: 模型训练完成输出权重地址,与训练output_dir配置内容一致。
- --model_name_or_path <model_name_or_path>:原始权重地址。
- 执行精度比较脚本。
ascendfactory-cli accuracy <cfgs_yaml_file> --o <output_dir> --baseline <baseline>
- 查看精度结果。
- 生成excel表格:${model_name}_train_accuracy_benchmark_<版本号>_<时间戳>.xlsx,${model_name}为所选框架名称。
MindSpeed-LLM表格样例截图:
- 生成ceval_validation、mmlu_test评估目录(仅Llama-Factory)根据3中数据集决定包含json及log文件,结果如下:
ceval_validation或mmlu_test
- results.log
- results.json
- 生成excel表格:${model_name}_train_accuracy_benchmark_<版本号>_<时间戳>.xlsx,${model_name}为所选框架名称。

客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置,权重使用表1中指定的Huggingface地址,数据指定data.tgz里面提供的gsm8k和AscendFactory/third_party/LLaMA-Factory/evaluation下的mmlu、ceval数据。