训练结果输出

日志及权重

训练过程中，MindSpeed-LLM框架训练loss、性能信息日志会在最后的Rank节点打印，Llama-Factory框架loss、性能信息日志打印会在第一个的Rank节点打印。训练结果结构说明如下：

MindSpeed-LLM

|──{output_dir} #{output_dir}参数设置值，如yaml文件中参数配置
    # 自动生成数据目录结构
    |──preprocessed_data                      # 数据预处理目录
    |──converted_hf2mg_weight_TP${TP}PP${PP}  # 原始HF转MG格式权重目录
    |──converted_mg2hf_weight                 # 训练完成权重MG转HF格式权重
    |──saved_checkpoints                      # 训练完成MG格式权重
    |──training_loss.png                      # loss曲线图
    |──logs                                   # 训练日志
      |──xx-xx-<时间戳>-npu_info-R${RankID}.txt          # 训练显存监控日志
      |──xx-xx-<时间戳>-run_log-${Nodes}-${RankID}.txt   # 训练过程运行日志

查看日志

查看启动作业日志信息，可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME，例如vcjob-main-0。

kubectl logs -f ${pod_name}

训练过程中，训练日志会在最后的Rank节点打印。

图1 打印训练日志

查看性能

训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。

吞吐量（tokens/s/p）：global batch size*seq_length/(总卡数*elapsed time per iteration)*1000，其global batch size（GBS）、seq_len（SEQ_LEN）为训练时设置的参数，训练日志中有打印。
loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。也可以使用可视化工具TrainingLogParser查看loss收敛情况，如图2所示。
单节点训练：训练过程中的loss直接打印在窗口上。

多节点训练：训练过程中的loss打印在最后一个节点上。

图2 Loss收敛情况（示意图）