更新时间:2024-12-02 GMT+08:00
分享

查看科学计算大模型训练状态与指标

查看模型训练状态

模型启动训练后,可以在模型训练列表中查看训练任务的状态,单击任务名称可以进入详情页查看训练指标、训练任务详情和训练日志。

表1 训练状态说明

训练状态

训练状态含义

已发布

模型已经训练完成并进行发布,用户可以使用模型进行部署、推理操作。

训练完成

模型训练已经成功完成。

训练中

模型正在训练中,训练过程尚未结束。

训练失败

模型训练过程中出现错误,需查看日志定位训练失败原因。

已停止

模型训练已被用户手动停止。

停止中

模型训练正在停止中。

训练异常

模型训练过程中出现了非预期的异常情况,需查看日志定位训练异常原因。

待启动

模型训练任务已经创建,但尚未启动训练过程。

初始化

模型训练任务正在进行初始化配置,准备开始训练。

查看训练指标

对于已完成训练,训练状态是“训练完成”状态的任务,单击任务名称,可在“训练结果”页面查看训练指标,不同模型的训练指标介绍请参见表2

图1 查看训练指标
表2 训练指标说明

模型

训练指标

指标说明

科学计算大模型

Loss

训练损失值是一种衡量模型预测结果和真实结果之间的差距的指标,通常情况下越小越好。这里代表高空Loss(深海Loss)和表面Loss(海表Loss)的综合Loss。

一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。

高空Loss(深海Loss)

高空Loss(深海Loss)是衡量模型在高空层次变量或在深海变量预测结果与真实结果之间差距的指标。该值越小,表示模型在高空(深海)变量的预测精度越高。

表面Loss(海表Loss)

表面Loss(海表Loss)是衡量模型在表面层次变量或在海表变量预测结果与真实结果之间差距的指标。该值越小,表示模型在表面(海表)变量的预测精度越高。

RMSE

均方根误差,衡量预测值与真实值之间差距的指标。它是所有单个观测的平方误差的平均值的平方根。该值越小,代表模型性能越好。

MAE

平均绝对误差,衡量预测值与真实值之间差距的指标。它是所有单个观测的绝对误差的平均值。该值越小,代表模型性能越好。

ACC

ACC(异常相关系数,距平相关系数,Anomaly Correlation Coefficient)是一个重要的统计指标,用于衡量预报系统的质量。它通过计算预报值与观测值之间的相关性来评估预报的准确性。ACC的计算涉及到预报值、观测值和气候平均值的差异,其值范围从-1到+1,值越接近+1表示预报与观测的一致性越好,值为0表示没有相关性,而负值则表示反向相关。

RQE

衡量预测值与真实值之间差距的指标。它是所有单个观测的相对误差的平方和。该值越小,代表模型性能越好。

获取训练日志

单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。对于训练异常或失败的任务也可以通过训练日志定位训练失败的原因。典型训练报错和解决方案请参见科学计算大模型训练常见报错与解决方案

训练日志可以按照不同的节点(训练阶段)进行筛选查看。分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如worker-0表示第一个工作节点)进行筛选查看。

图2 获取训练日志

相关文档