查看训练结果输出
训练输出结果,包括预处理后的训练数据、checkpoint、训练日志、模型权重均存放在OBS桶obs://<bucket_name>/verl-a2中。
训练结果结构说明如下:
|——{OBS桶} # OBS桶名,可自定义名称,例如:verl
|──{verl-a2} # OBS文件夹,可自定义名称,例如:verl-a2
|──{ckpts} # OBS文件夹,用于存放checkpoint ,可自定义名称,例如:ckpts
|──{GRPO-Qwen3} # OBS文件夹,项目名称,可自定义名称,例如:GRPO-Qwen3
|──{GRPO-Qwen3-8B-npu} # OBS文件夹,实验名称,可自定义名称,例如:GRPO-Qwen3-8B-npu
|──latest_checkpointed_iteration.txt # 最新的保存点迭代次数
|──global_step_{number} # 第number步训练权重文件夹
|──run_qwen3-8b_npu_ma.log # 训练日志
|──run_qwen2_5_vl_32b_npu_ma.log # 训练日志
查看日志
在OBS桶中查找obs://<bucket_name>/verl-a2/run_qwen3_8b_npu_ma.log或obs://<bucket_name>/verl-a2/run_qwen2_5_vl_32b_npu_ma.log
查看性能
训练性能主要通过训练日志中的2个指标查看:吞吐量和收敛情况。
- 吞吐量(tokens/s/p):通过${output_dir}参数值路径下的verl_grpo-{af_model_name}-<序列长度-设备类型-时间戳>-run_log-N1-WS8.txt文件计算性能。训练日志文件中perf/throughput字段代表单步计算的吞吐值,可以使用可视化工具TrainingLogParser查看perf/throughput整体训练平均吞吐量。
- score收敛情况:日志里存在critic/score/mean参数 ,critic/score/mean参数随着训练迭代周期越来越大,期望逐渐趋于1并收敛。也可以使用可视化工具TrainingLogParser查看critic/score/mean收敛情况。