模型启动训练后,模型的训练任务状态请在“模型训练”页面进行查看。单击任务名称可以进入详情页查看训练指标、训练任务详情和训练日志。
 
  查看模型训练状态
  在模型训练列表中查看训练任务的状态,各状态说明详见表1。
  
   
   
    
     表1 训练状态说明
    
    
     
      | 训练状态 | 训练状态含义 | 
    
    
     
      | 初始化 | 模型训练任务正在进行初始化配置,准备开始训练。 | 
     
      | 排队中 | 模型训练任务正在排队,请稍等。 | 
     
      | 运行中 | 模型正在训练中,训练过程尚未结束。 | 
     
      | 停止中 | 模型训练正在停止中。 | 
     
      | 已停止 | 模型训练已被用户手动停止。 | 
     
      | 失败 | 模型训练过程中出现错误,需查看日志定位训练失败原因。 | 
     
      | 已完成 | 模型训练已完成。 | 
    
   
   
  
 
  查看训练指标
  对于训练状态为“已完成”的任务,单击任务名称,可在“训练结果”页面查看训练指标,模型的训练指标介绍请参见表2。
  
   图1 查看训练指标
    
   
  
   
   
    
     表2 训练指标说明
    
    
     
      | 模型 | 训练指标 | 指标说明 | 
    
    
     
      | 多模态大模型 | 训练损失值(Training Loss) | 训练损失值是一种衡量模型预测结果和真实结果之间的差距的指标,通常情况下越小越好。 一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。 | 
    
   
   
  
 
  获取训练日志
  单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。
  对于训练异常或失败的任务可以通过训练日志定位训练失败的原因。
  训练日志可以按照不同的节点(训练阶段)进行筛选查看。分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如worker-0表示第一个工作节点)进行筛选查看。
  
   图2 获取训练日志
   