更新时间:2024-01-23 GMT+08:00
分享

训练模式选择

针对MindSpore类引擎,ModelArts提供训练模式选择,支持用户根据实际场景获取不同的诊断信息。

在训练作业创建页面,支持普通模式、高性能模式和故障诊断模式,默认设置为普通模式。普通模式的调测信息可参考查看训练日志

针对于新增的两种模式,推荐以下两种场景使用:

  • 高性能模式:最小化调测信息,可以提升运行速度,适合于网络稳定并追求高性能的场景。
  • 故障诊断模式:收集更多的信息用于定位,适合于执行出现问题需要收集故障信息进行定位的场景。此模式提供故障诊断,用户可以根据实际需求选择诊断类别。
图1 模式选择

各模式获取的调测信息见下表。

表1 MindSpore引擎各模式的调测信息

调测信息

普通模式

高性能模式

故障诊断模式

说明

MindSpore框架日志级别

Info级别

error级别

Info级别

MindSpore框架运行时日志。

RDR(Running Data Recorder)

关闭

关闭

开启

出现运行异常会自动地导出MindSpore中预先记录的数据以辅助定位运行异常的原因。不同的运行异常将会导出不同的数据。

RDR详细的介绍请参考MindSpore官网说明

analyze_fail.dat

默认提供,上传至训练作业日志路径中

图编译失败自动导出故障信息,用于infer过程分析。

dump数据

默认提供,上传至训练作业日志路径中

后端执行期异常触发dump数据。

在故障诊断模式下,开启故障诊断功能后,支持用户查看以下故障诊断数据。以下数据存储至训练日志路径的OBS目录下。

故障诊断模式的训练输出日志文件说明:

{obs-log-path}/
    modelarts-job-{job-id}-worker-{index}.log # 在屏幕上显示日志(汇总)
    modelarts-job-{job-id}-proc-rank-{rank-id}-device-{device-id}.txt # 每个device的日志显示在屏幕上
    modelarts-job-{job-id}/
        ascend/
            npu_collect/rank_{id}/   # TFAdapter DUMP GRAPH 与 GE DUMP GRAPH 的输出路径,仅在使用TensorFlow框架时生成
            process_log/rank_{id}/   # Plog 日志路径
            msnpureport/{task-index}/  #msnpureport工具执行日志,用户无需关注
        mindspore/
            log/  # MindSpore 框架日志与 MindSpore 故障诊断数据
表2 故障诊断数据一览表(MindSpore)

故障诊断分类

故障诊断内容

CANN框架日志和故障诊断数据

HOST侧的INFO及INFO以上级别日志,包括HOST侧CANN软件桟日志、HOST侧驱动日志文件等。

MindSpore框架日志和故障诊断数据

MindSpore框架生成的日志,INFO及INFO以上级别日志。

RDR(Running Data Recorder)文件。

出现运行异常会自动地导出MindSpore中预先记录的数据以辅助定位运行异常的原因。不同的运行异常将会导出不同的数据。

analyze_fail.dat,图编译失败自动导出故障信息,用于infer过程分析。

dump数据,后端执行期异常触发dump数据。

在创建训练作业页面,选择算法为MindSpore,资源类型为Ascend,可以开启故障诊断模式。

图2 选择算法
图3 选择资源类型
图4 开启故障诊断
分享:

    相关文档

    相关产品