更新时间:2024-11-21 GMT+08:00
分享

训练性能测试

流程图

训练性能测试流程图如下图所示:

图1 训练性能测试流程

执行训练任务

  1. 进入test-benchmark目录执行训练命令,可以多次执行,卡数及其它配置参考NPU卡数取值表按自己实际情况决定。

    单机<可选>:

    # 默认8卡
    benchmark-cli train <cfgs_yaml_file> <model_name> <run_type> 
    # 指定设备卡数,如2卡
    ASCEND_RT_VISIBLE_DEVICES=0,1 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type>

    多机<可选>多机同时执行:

    benchmark-cli train <cfgs_yaml_file> <model_name> <run_type> --master_addr <master_addr> --num_nodes <nodes> --rank <rank> 
    • <cfgs_yaml_file>:性能测试配置的yaml文件地址,如代码目录中performance_cfgs.yaml相对或绝对路径。
    • <model_name>:训练模型名,如qwen2-7b
    • <run_type>:训练策略类型及数据序列长度:【lora:4096-lora、full:4096-full、lora-8k:8192-lora、full-8k:8192-full】
    • --master_addr <master_addr>:主master节点IP,一般选rank0为主master。
    • --num_nodes <nodes>:训练节点总个数
    • --rank <rank>:节点ID
  2. 训练完成后,test-benchmark目录下会生成训练日志及NPU利用率日志,如qwen2.5-7b日志。
    • qwen2.5-7b-sft-4096-lora-313T-20241028_164746-0.txt,打印吞吐值及训练参数

    • qwen2.5-7b-sft-4096-lora-313T-20241028_164746-npu_info-0.txt,打印训练过程中AICORE利用率

执行性能比较脚本

进入test-benchmark目录执行命令:

benchmark-cli performance <cfgs_yaml_file> --baseline <baseline> --o <output_dir>
  • <cfgs_yaml_file>:性能测试配置的yaml文件地址,指代码目录中performance_cfgs.yaml相对或绝对路径,此配置文件为训练最优配置参数。
  • --baseline <baseline>:<可选>GP-Ant8机器性能基线yaml文件路径,用户可自行修改,不填则使用工具自带基线配置,默认基线配置样例如下:

  • --o <output_dir>: <可选>任务完成输出excel表格路径,默认为"./"当前所在路径。

查看性能结果

任务完成之后会在test-benchmark目录下生成excel表格:

性能结果 LLaMAFactory_train_performance_benchmark_<版本号>_<时间戳>.xlsx

表格样例如下:

相关文档