更新时间:2026-02-05 GMT+08:00
分享

查看训练结果输出

训练输出结果,包括预处理后的训练数据、checkpoint、训练日志、模型权重均存放在OBS桶obs://<bucket_name>/verl-a2中。

训练结果结构说明如下:

|——{OBS桶}                                                   # OBS桶名,可自定义名称,例如:verl
   |──{verl-a2}                                              # OBS文件夹,可自定义名称,例如:verl-a2   
       |──{ckpts}                                            # OBS文件夹,用于存放checkpoint ,可自定义名称,例如:ckpts
            |──{GRPO-Qwen3}                                  # OBS文件夹,项目名称,可自定义名称,例如:GRPO-Qwen3
                 |──{GRPO-Qwen3-8B-npu}                      # OBS文件夹,实验名称,可自定义名称,例如:GRPO-Qwen3-8B-npu
                      |──latest_checkpointed_iteration.txt   # 最新的保存点迭代次数
                      |──global_step_{number}                # 第number步训练权重文件夹
       |──run_qwen3-8b_npu_ma.log                            # 训练日志
       |──run_qwen2_5_vl_32b_npu_ma.log                      # 训练日志

查看日志

在OBS桶中查找obs://<bucket_name>/verl-a2/run_qwen3_8b_npu_ma.log或obs://<bucket_name>/verl-a2/run_qwen2_5_vl_32b_npu_ma.log

查看性能

训练性能主要通过训练日志中的2个指标查看:吞吐量和收敛情况。

  1. 吞吐量(tokens/s/p):通过${output_dir}参数值路径下的verl_grpo-{af_model_name}-<序列长度-设备类型-时间戳>-run_log-N1-WS8.txt文件计算性能。训练日志文件中perf/throughput字段代表单步计算的吞吐值,可以使用可视化工具TrainingLogParser查看perf/throughput整体训练平均吞吐量。
  2. score收敛情况:日志里存在critic/score/mean参数 ,critic/score/mean参数随着训练迭代周期越来越大,期望逐渐趋于1并收敛。也可以使用可视化工具TrainingLogParser查看critic/score/mean收敛情况。

相关文档