更新时间:2024-04-30 GMT+08:00
分享

查看日志和性能

查看日志

训练过程中,训练日志会在最后的Rank节点打印。

图1 打印训练日志

训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为{work_dir}/saved_dir_for_ma_output/Llama2-70B/logs,本实例日志路径为/home/ma-user/ws/saved_dir_for_ma_output/Llama2-70B/logs

查看性能

训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。

  • 吞吐量(tokens/s/p):global batch size*seq_length/(总卡数*elapsed time per iteration)*1000,其参数在日志里可找到,默认seq_len值为4096。Llama2-70B默认global batch size为1024,具体参数查看表1 中GBS值;其global batch size(GBS)、seq_len(SEQ_LEN)为训练时设置的参数。
  • loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况,如图2所示。

    单节点训练:训练过程中的loss直接打印在窗口上。

    多节点训练:训练过程中的loss打印在最后一个节点上。

    图2 Loss收敛情况(示意图)
分享:

    相关文档

    相关产品