更新时间:2025-07-29 GMT+08:00
分享

查看日志和性能

单击作业详情页面,则可查看训练过程中的详细信息。

图1 查看训练作业

在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。

  • 吞吐量(tokens/s/p):global batch size×seq_length/(总卡数×elapsed time per iteration)×1000,其global batch size(GBS)、seq_len(SEQ_LEN)为训练时设置的参数。
  • loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。
图2 查看日志和性能

训练结束之后,在保存路径下生成了如下几个文件:

    |──converted_hf2mg_weight_TP${TP}PP${PP} # 训练过程Megatron格式权重
    |──converted_mg2hf_weight                # 训练完成转换为HF格式权重目录,只有配置了自动转换才有内容,否则为空
    |──logs                                  # 训练过程日志
    |──preprocessed_data                     # 训练过程预处理后数据集目录
    |──saved_checkpoints                     # 训练生成权重文件

相关文档