更新时间:2024-11-12 GMT+08:00
分享

查看日志和性能

查看日志

训练过程中,训练日志会在第一个的Rank节点打印。

图1 打印训练日志

训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件

查看性能

训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。

  • 吞吐量(tokens/s/p):可通过表1表格中output_dir参数值路径下的trainer_log.jsonl计算性能。取中间过程多steps平均值吞吐计算公式为:

    delta_tokens = end_total_tokens-start_ total_tokens

    delta_time = end_elapsed_time - start_elapsed_time

    吞吐值(tps) = delta_tokens / delta_time / 训练卡数

    如图所示:

  • loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况,将trainer_log.jsonl文件长传至可视化工具页面,如图2所示。

    单节点训练:训练过程中的loss直接打印在窗口上。

    多节点训练:训练过程中的loss打印在第一个节点上。

    图2 Loss收敛情况(示意图)

    ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。

    图3 trainer_log.jsonl文件

相关文档