查看训练结果输出

训练输出结果，包括预处理后的训练数据、checkpoint、训练日志、模型权重均存放在OBS桶obs://<bucket_name>/verl-a2中。

训练结果结构说明如下：

|——{OBS桶}                                                   # OBS桶名，可自定义名称，例如：verl
   |──{verl-a2}                                              # OBS文件夹，可自定义名称，例如：verl-a2   
       |──{ckpts}                                            # OBS文件夹，用于存放checkpoint ，可自定义名称，例如：ckpts
            |──{GRPO-Qwen3}                                  # OBS文件夹，项目名称，可自定义名称，例如：GRPO-Qwen3
                 |──{GRPO-Qwen3-8B-npu}                      # OBS文件夹，实验名称，可自定义名称，例如：GRPO-Qwen3-8B-npu
                      |──latest_checkpointed_iteration.txt   # 最新的保存点迭代次数
                      |──global_step_{number}                # 第number步训练权重文件夹
       |──run_qwen3-8b_npu_ma.log                            # 训练日志
       |──run_qwen2_5_vl_32b_npu_ma.log                      # 训练日志
       |──run_qwen3_30b_a3b_npu_ma.log                       # 训练日志

查看日志

在OBS桶中查找obs://<bucket_name>/verl-a2/run_qwen3_8b_npu_ma.log，obs://<bucket_name>/verl-a2/run_qwen2_5_vl_32b_npu_ma.log或obs://<bucket_name>/verl-a2/run_qwen3_30b_a3b_npu_ma.log

查看性能

训练性能主要通过训练日志中的2个指标查看：吞吐量和收敛情况。

吞吐量（tokens/s/p）：通过${output_dir}参数值路径下的verl_grpo-{af_model_name}-<序列长度-设备类型-时间戳>-run_log-N1-WS8.txt文件计算性能。训练日志文件中perf/throughput字段代表单步计算的吞吐值，可以使用可视化工具TrainingLogParser查看perf/throughput整体训练平均吞吐量。
score收敛情况：日志里存在critic/score/mean参数，critic/score/mean参数随着训练迭代周期越来越大，期望逐渐趋于1并收敛。也可以使用可视化工具TrainingLogParser查看critic/score/mean收敛情况。

父主题： Qwen3&Qwen2.5-VL模型基于ModelArts平台适配VeRL框架训练指导

上一篇：执行训练任务

下一篇：Qwen3系列模型基于ModelArts平台适配AreaL框架训练指导