更新时间:2025-07-30 GMT+08:00
分享

查看预测大模型训练状态与指标

模型启动训练后,可以在模型训练列表中查看训练任务的状态,单击任务名称可以进入详情页查看训练结果、训练任务详情和训练日志。

查看模型训练状态

在模型训练列表中查看训练任务的状态,各状态说明详见表1

表1 训练状态说明

训练状态

训练状态含义

初始化

模型训练任务正在进行初始化配置,准备开始训练。

排队中

模型训练任务正在排队,请稍等。

运行中

模型正在训练中,训练过程尚未结束。

停止中

模型训练正在停止中。

已停止

模型训练已被用户手动停止。

失败

模型训练过程中出现错误,需查看日志定位训练失败原因。

已完成

模型训练已完成。

查看训练指标

对于训练状态为“已完成”的任务,单击任务名称,可在“训练结果”页面查看训练指标,模型的训练指标介绍请参见表2

表2 训练指标说明

模型

训练指标

指标说明

预测大模型

拟合度

拟合度是一种衡量模型对数据拟合程度的指标。数值范围为0到1,数值越接近1,表示模型对数据的拟合程度越好。

均方根误差

均方根误差是预测值与真实值之间差异的平方和的均值的平方根。它用于衡量模型预测值与实际值之间的偏差,数值越小,表明模型预测的精度越高。

平均绝对误差

平均绝对误差是预测值与真实值之间绝对误差的均值。它同样用于衡量模型预测值与实际值之间的差异,数值越小,表明模型预测的准确性越高。

真实值和预测值

真实值和预测值在图表中的对比情况。

准确率

模型预测结果中,所有预测正确的样本占总样本的比例。数值越高,模型效果越好。

精准率

精准率是指在模型预测为正类的样本中,真正类样本的比例。数值越高,表明模型在检测正类样本时的准确性越高。

召回率

召回率是指在所有实际为正类的样本中,被模型正确预测为正类的比例。数值越高,表明模型在检测正类样本时的全面性越高。

误报率

误报率是指被错误预测为异常的正常样本在总正常样本中所占的比例。误报率关乎于不必要的维护操作,高误报率意味着系统频繁错误地预测设备故障,即使设备实际上运行正常,这种情况会导致不必要的维护活动。

漏报率

漏报率是指被错误预测为正常的异常样本在总异常样本中所占的比例。漏报率关乎于错过真正的故障,高漏报率表示实际存在故障时,系统未能正确识别并报警,这意味着真正的故障被忽视了。这种情况下,可能会导致设备损坏加剧、意外停机甚至安全事故的发生。

训练损失值(Training Loss)

训练损失值是一种衡量模型预测结果和真实结果之间的差距的指标,通常情况下越小越好。

一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。

详细评估

模型预测数值与给定数据实际值的对比,用于协助用户评估模型训练质量。实际值与预测值差异越少,预测模型训练效果越好。

训练特征重要性

各特征对模型的影响大小,以便于模型调优。

图1 loss曲线示意图

获取训练日志

单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。

对于训练异常或失败的任务可以通过训练日志定位训练失败的原因。典型训练报错和解决方案请参见预测大模型训练常见报错与解决方案

训练日志可以按照不同的节点(训练阶段)进行筛选查看。分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如worker-0表示第一个工作节点)进行筛选查看。

图2 获取训练日志

训练异常定位方法

模型训练失败时,可以按照如下定位思路对训练任务做初步定位。

  1. 在训练任务列表查看任务失败原因。

    模型启动训练后,可以在模型训练列表中查看训练任务的状态,当任务状态为“失败”时,可将鼠标放置在“失败”上,可以查看到任务失败的概要信息。

  2. 单击任务名,进入任务详情页查看训练任务运行关键事件信息。

    单击“事件”页签,可查看训练任务子任务运行事件,通过事件可以观察到当前任务的运行情况。事件可以按照“正常、异常、告警”三类事件类型过滤。

  3. 获取当前任务运行的worker、workerIP以及任务异常退出时的节点和退出码信息。

    在ModelArts Studio训练任务页面单击需要查看的任务名,进入“任务详情”页,在“工作流节点详情”下可以查看到当前任务所运行的节点及IP信息。

  4. 当训练任务运行失败时,可查看“模型训练详情 -> 基本信息 -> 状态”,单击“查看失败节点清单”获取训练任务故障节点及退出码信息。

  5. 训练作业遇到问题时,可查看“模型训练详情 -> 日志”,多数场景下的问题可以通过日志报错信息直接定位。

    如果训练作业运行失败,ModelArts Studio会自动识别导致作业失败的原因,在训练日志界面上给出提示并对部分常见训练错误给出分析建议。包含失败的可能原因、推荐的解决方案。

    图3 训练错误分析建议

    针对分布式作业,只会显示当前节点的一个分析结果,作业的失败需要综合各个节点的失败原因做一个综合判断。

相关文档