文档首页/
AI开发平台ModelArts/
最佳实践/
LLM大语言模型训练推理/
主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.911)/
训练benchmark工具/
训练性能测试
更新时间:2024-12-17 GMT+08:00
训练性能测试
流程图
训练性能测试流程图如下图所示:
图1 训练性能测试流程
执行训练任务
- 进入test-benchmark目录执行训练命令,可以多次执行,卡数及其它配置参考NPU卡数取值表按自己实际情况决定。
单机<可选>:
# 默认8卡 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type> # 指定设备卡数,如2卡 ASCEND_RT_VISIBLE_DEVICES=0,1 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type>
多机<可选>多机同时执行:
benchmark-cli train <cfgs_yaml_file> <model_name> <run_type> --master_addr <master_addr> --num_nodes <nodes> --rank <rank>
- <cfgs_yaml_file>:性能测试配置的yaml文件地址,如代码目录中performance_cfgs.yaml相对或绝对路径。
- <model_name>:训练模型名,如qwen2-7b
- <run_type>:训练策略类型及数据序列长度:【lora:4096-lora、full:4096-full、lora-8k:8192-lora、full-8k:8192-full】
- --master_addr <master_addr>:主master节点IP,一般选rank0为主master。
- --num_nodes <nodes>:训练节点总个数
- --rank <rank>:节点ID
- 训练完成后,test-benchmark目录下会生成训练日志及NPU利用率日志,如qwen2.5-7b日志。
执行性能比较脚本
进入test-benchmark目录执行命令:
benchmark-cli performance <cfgs_yaml_file> --baseline <baseline> --o <output_dir>
- <cfgs_yaml_file>:性能测试配置的yaml文件地址,指代码目录中performance_cfgs.yaml相对或绝对路径,此配置文件为训练最优配置参数。
- --baseline <baseline>:<可选>GP-Ant8机器性能基线yaml文件路径,用户可自行修改,不填则使用工具自带基线配置,默认基线配置样例如下:
- --o <output_dir>: <可选>任务完成输出excel表格路径,默认为"./"当前所在路径。
查看性能结果
任务完成之后会在test-benchmark目录下生成excel表格:
性能结果LLaMAFactory_train_performance_benchmark_<版本号>_<时间戳>.xlsx
表格样例如下:
父主题: 训练benchmark工具