更新时间:2026-03-14 GMT+08:00
分享

查看训练结果输出

日志及权重

存放在自己设置的输出路径,如果选择输出变量${output_dir},则可以在OBS配置的输出路径查看。

查看日志

在OBS桶内可以查看相应的日志,或者在任务界面终端查看。

查看性能

训练性能主要通过训练日志中的2个指标查看:吞吐量和收敛情况。

在shell内运行npu-smi info可以查看实时用量。

或者在训练日志中看到整体吞吐和处理时间。

例如从如下日志中,我们看到每一步的时间为140s左右,每一步的处理tokens数量为预设的4096,global_batch_size预设为8。每一步学习率等参数也在日志中显示。

每个worker职责可能有所差异,打印的日志也会有所差异。并非每个worker实例都会显示每一步的训练详情,如在主worker未查看到详情,请切换到其他worker。

查看保存结果

待训练全部完成并传输完成退出任务后,可以在OBS相应路径查看到保存的结果。

Qwen3-32B-Base-sft-tulu:模型训练后保存的distcp格式权重。

qwen3-32b-saved-hf_ckpt:脚本中使用转化命令转化后的hf格式权重。

相关文档