查看CV大模型训练状态与指标
模型启动训练后,可以在模型训练列表中查看训练任务的状态,单击任务名称可以进入详情页查看训练结果、训练任务详情和训练日志。
查看模型训练状态
在模型训练列表中查看训练任务的状态,各状态说明详见表1。
查看训练指标
对于训练状态为“已完成”的任务,单击任务名称,可在“训练结果”页面查看训练指标,模型的训练指标介绍请参见图1。
模型 |
训练指标 |
指标说明 |
---|---|---|
Pangu-CV-物体检测-S-2.1.0 Pangu-CV-物体检测-S-3.1.0 Pangu-CV-物体检测-N-2.1.0 Pangu-CV-实例分割-1.1.0 Pangu-CV-图像分类-2.1.0 |
训练损失值 |
训练损失值是一种衡量模型预测结果和真实结果之间的差距的指标,通常情况下越小越好。 一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。 |
精准率 |
精准率是指在模型预测为正类的样本中,真正类样本的比例。数值越高,表明模型在检测正类样本时的准确性越高。 |
|
召回率 |
召回率是指在所有实际为正类的样本中,被模型正确预测为正类的比例。数值越高,表明模型在检测正类样本时的全面性越高。 |
|
Pangu-CV-语义分割-2.1.0 |
训练损失值 |
训练损失值是一种衡量模型预测结果和真实结果之间的差距的指标,通常情况下越小越好。 一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。 |
平均交并比 |
是一种常用的评估指标,主要用于衡量图像分割任务的性能。它通过计算预测结果与真实标签之间的交集与并集的比值,来评估模型的准确性。是一个综合性的评估指标,能够全面反映模型在图像分割任务中的表现。 |
|
像素精度 |
是语义分割任务中的一种简单而直观的评估指标,用于衡量模型预测正确的像素占总像素的比例。在初步评估模型性能时,像素精度可以提供一个快速的参考。 |
|
平均精度 |
是语义分割任务中的一种评估指标,用于衡量每个类别中预测正确的像素占该类别总像素的比例,然后对所有类别的精度取平均值。在需要平衡不同类别性能的评估中,平均精度是一个有用的指标。 |
|
平均Dice系数 |
是语义分割任务中的一种评估指标,用于衡量预测结果与真实标签之间的相似度。Dice系数通过计算两个集合的交集与并集的比值来评估模型的性能。 |
|
F1分数 |
是评估分类模型性能的一种常用指标,特别是在处理类别不平衡问题时尤为有用。F1分数是精确率(Precision)和召回率(Recall)的调和平均值,能够综合反映模型在正类上的性能。 |
|
精准率 |
精准率是指在模型预测为正类的样本中,真正类样本的比例。数值越高,表明模型在检测正类样本时的准确性越高。 |
|
召回率 |
召回率是指在所有实际为正类的样本中,被模型正确预测为正类的比例。数值越高,表明模型在检测正类样本时的全面性越高。 |
获取训练日志
单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。
对于训练异常或失败的任务可以通过训练日志定位训练失败的原因。典型训练报错和解决方案请参见CV大模型训练常见报错与解决方案。
训练日志可以按照不同的节点(训练阶段)进行筛选查看。分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如worker-0表示第一个工作节点)进行筛选查看。

训练异常定位方法
模型训练失败时,可以按照如下定位思路对训练任务做初步定位。
- 在训练任务列表查看任务失败原因。
模型启动训练后,可以在模型训练列表中查看训练任务的状态,当任务状态为“失败”时,可将鼠标放置在“失败”上,可以查看到任务失败的概要信息。
- 单击任务名,进入任务详情页查看训练任务运行关键事件信息。
单击“事件”页签,可查看训练任务子任务运行事件,通过事件可以观察到当前任务的运行情况。事件可以按照“正常、异常、告警”三类事件类型过滤。
- 获取当前任务运行的worker、workerIP以及任务异常退出时的节点和退出码信息。
在ModelArts Studio训练任务页面单击需要查看的任务名,进入“任务详情”页,在“工作流节点详情”下可以查看到当前任务所运行的节点及IP信息。
- 当训练任务运行失败时,可查看“模型训练详情 -> 基本信息 -> 状态”,单击“查看失败节点清单”获取训练任务故障节点及退出码信息。
- 训练作业遇到问题时,可查看“模型训练详情 -> 日志”,多数场景下的问题可以通过日志报错信息直接定位。
如果训练作业运行失败,ModelArts Studio会自动识别导致作业失败的原因,在训练日志界面上给出提示并对部分常见训练错误给出分析建议。包含失败的可能原因、推荐的解决方案。
图3 训练错误分析建议针对分布式作业,只会显示当前节点的一个分析结果,作业的失败需要综合各个节点的失败原因做一个综合判断。