查看训练结果输出
日志及权重
存放在自己设置的输出路径,如果选择输出变量${output_dir},则可以在OBS配置的输出路径查看。
查看日志

在OBS桶内可以查看相应的日志,或者在任务界面终端查看。

查看性能
训练性能主要通过训练日志中的2个指标查看:吞吐量和收敛情况。
在shell内运行npu-smi info可以查看实时用量。
或者在训练日志中看到整体吞吐和处理时间。
例如从如下日志中,我们看到每一步的时间为4500ms左右,每一步的处理tokens数量为预设的4096。每一步使用的samples数以及学习率等参数也在日志中显示。
每个worker职责可能有所差异,打印的日志也会有所差异。并非每个worker实例都会显示每一步的训练详情,如在主worker未查看到详情,请切换到其他worker。

查看保存结果

待训练全部完成并传输完成退出任务后,可以在OBS相应路径查看到保存的结果。
ckpt:模型训练后保存的mg格式权重。
finetune_dataset:处理后的数据集。
model_weights:模型hf2mg转换后的权重。
trained_hf_models:根据ckpt将mg格式转换回hf格式的模型权重文件夹。脚本中已经帮助将config.json模型配置文件和tokenizer.model、vocab.json等词表文件复制到此文件夹。