文档首页/
AI开发平台ModelArts/
最佳实践/
LLM大语言模型训练推理/
主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.907)/
查看日志和性能
更新时间:2024-08-17 GMT+08:00
查看日志和性能
查看日志
训练过程中,训练日志会在第一个的Rank节点打印。
查看性能
训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。
- 吞吐量(tokens/s/p):可通过表1表格中output_dir参数值路径下的train_results.json查看性能。吞吐计算公式为"num_input_tokens_seen / train_runtime / 训练卡数"。相关参数可查看表1。
- loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况,如图2所示。
单节点训练:训练过程中的loss直接打印在窗口上。
多节点训练:训练过程中的loss打印在第一个节点上。