更新时间:2025-07-29 GMT+08:00
分享

训练服务评测

介绍如何使用benchmark工具对训练性能(吞吐)、精度(loss、下游打分)开展评测对比,对比结果以excel文件呈现,方便用户验证发布模型的质量。评测包括以下两部分:

约束限制

训练服务评测目前仅适配了Lite Server环境部署的微调(SFT)训练阶段。

性能评测

  • 流程图
    图1 训练性能测试流程
  • 详细步骤:
  1. 已完成ModelArts Lite Server环境训练任务。
  2. 3.1 训练任务中同级目录执行性能比较脚本,如test-benchmark目录。
    ascendfactory-cli performance <cfgs_yaml_file> --baseline <baseline> --o <output_dir>
    • <cfgs_yaml_file>:yaml文件地址:config目录中yaml相对或绝对路径,如performance_cfgs.yaml或modellink_performance_cfgs.yaml,此配置文件为训练最优配置参数。
    • --baseline <baseline>:<可选>GP-Ant8机器性能基线yaml文件路径,用户可自行修改,不填则使用自带基线配置config目录下xxx_performance_baseline.yaml,基线样例配置如下:

    • --o <output_dir>: <可选>任务完成输出excel表格路径,默认为"./"当前所在路径。
  3. 查看性能结果excel表格:${model_name}_train_performance_benchmark_<版本号>_<时间戳>.xlsx,${model_name}为所选框架名称。

    Llama-Factory表格样例如下:

    MindSpeed-LLM表格样例如下:

精度评测

  • 流程图
    图2 训练精度测试流程图
  • 约束限制
    在精度评估过程中,通常为每个模型系列选择一种评估,具体模型适配情况如下表所示:
    表1 精度适配模型

    模型名称

    MindSpeed-LLM

    Llama-Factory

    qwen2.5-7b

    qwen2-7b

    llama3.2-3b

    llama3.1-8b

    glm4-9b

    x

  • 详细步骤:
    1. 已完成ModelArts Lite Server环境训练任务。
    2. 进入3 训练任务执行训练命令同级目录,如test-benchmark目录。
    3. 执行下游评估命令。

      Llama-Factory为增加精度评测的稳定性及进一步确保训练精度,使用多个数据集【MMLU、CEVAL】评测,路径为AscendFactory/third_party/LLaMA-Factory/evaluation目录下;MindSpeed-LLM目前仅适配gsm8k数据集执行过程如下:

      ascendfactory-cli eval <cfgs_yaml_file>  --dataset=<dataset>  
      --model_name=<model_name> --run_type=<run_type> --model_name_or_path=<model_name_or_path>  --output_dir=<output_dir>
      • <cfgs_yaml_file>:精度评估配置的yaml文件地址,config目录accuracy_cfgs.yaml相对或绝对路径
      • --dataset <dataset>:评估数据集,根据所选框架选择不同数据集类型名称;
        • Llama-Factory可选值:【all、mmlu、ceval】,默认值为all,用户只需选择参数即可,数据集路径eval接口已指定好。
        • MindSpeed-LLM:默认gsm8k,用户只需选择参数即可,路径eval接口已指定好
      • --model_name <model_name>:训练模型名
      • --run_type <run_type>:训练类型:【full 、 lora】
      • --output_dir <output_dir>: 模型训练完成输出权重地址,与训练output_dir配置内容一致。
      • --model_name_or_path <model_name_or_path>:原始权重地址。
    4. 执行精度比较脚本。
      ascendfactory-cli accuracy <cfgs_yaml_file> --o <output_dir> --baseline <baseline>
      • <cfgs_yaml_file>:精度测试配置的yaml文件地址,精度评估配置的yaml文件地址,config目录accuracy_cfgs.yaml相对或绝对路径
      • --o <output_dir>: <可选>任务完成输出excel表格路径,默认为"./"当前所在路径
      • --baseline <baseline>:<可选>GP-Ant8机器精度基线Yaml文件路径,不填则使用自带基线配置config目录下accuracy_baseline.yaml,包含loss、score、mmlu_score、ceval_score基线值;Llama-Factory默认基线配置样例如下:

    5. 查看精度结果。
      • 生成excel表格:${model_name}_train_accuracy_benchmark_<版本号>_<时间戳>.xlsx,${model_name}为所选框架名称。

        Llama-Factory表格样例截图:

        MindSpeed-LLM表格样例截图:

      • 生成ceval_validation、mmlu_test评估目录(仅Llama-Factory)根据3中数据集决定包含json及log文件,结果如下:

        ceval_validation或mmlu_test

        • results.log
        • results.json

客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置,权重使用表1中指定的Huggingface地址,数据指定data.tgz里面提供的gsm8k和AscendFactory/third_party/LLaMA-Factory/evaluation下的mmlu、ceval数据。

相关文档