文档首页/
AI开发平台ModelArts/
最佳实践/
LLM大语言模型训练推理/
主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.911)/
查看日志和性能
更新时间:2024-12-17 GMT+08:00
查看日志和性能
单击作业详情页面,则可查看训练过程中的详细信息。
图1 查看训练作业
在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。
- 吞吐量(tokens/s/p):global batch size*seq_length/(总卡数*elapsed time per iteration)*1000,其global batch size(GBS)、seq_len(SEQ_LEN)为训练时设置的参数
- loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。
图2 查看日志和性能