更新时间:2026-01-21 GMT+08:00
分享

创建和查看慢节点诊断作业

当用户业务发生慢节点故障时,可通过输入profiling性能数据转储的OBS路径,创建慢节点诊断作业,实现对AI作业过程中发生的故障进行诊断。慢节点诊断作业能够对慢节点故障进行诊断。创建后可查看诊断结果,用于分析系统运行状态、定位和解决故障 。

具体流程如下:

图1 慢节点诊断流程

准备profiling数据上传到OBS

使用慢节点诊断时,您需要将待分析训练作业的profiling性能数据上传至对象存储服务(OBS)中,并确保上传内容符合OBS路径格式规范

训练作业profiling数据的采集方法如下:

表1 不同profiling性能数据的采集方式

profiling性能数据类型

profiling性能数据采集方法

Ascend PyTorch Profiler/msprof

参考地址

MindSpore Profiler

参考地址

请规范慢节点诊断路径格式,否则将导致作业失败。

在OBS路径下,包括Ascend PyTorch Profiler采集场景的*_ascend_pt性能数据结果目录,或者MindSpore Profiler采集场景的*_ascend_ms性能数据结果目录,以Ascend PyTorch Profiler采集场景的*_ascend_pt性能数据示例:

创建慢节点诊断作业

  1. 登录ModelArts管理控制台,在左侧导航栏选择“运维管理 > 慢节点诊断”,进入慢节点诊断页面。
  2. 单击“创建作业”进入创建作业界面。
  3. 在创建慢节点诊断作业界面,参考表2填写相应参数。

    表2 创建慢节点诊断作业参数说明

    参数名

    参数说明

    作业名称

    必填,慢节点诊断作业的名称。

    系统会自动生成一个名称,可以根据业务需求重新命名,命名规则如下:

    只允许输入长度为 1 到 64 位由数字、中文、英文、下划线(_)或中划线(-)组成的字符。

    添加描述

    可选,慢节点诊断作业的简单描述。

    OBS路径

    必填,只允许输入以obs://开头,桶名称长度为1-128位,子路径名称长度为1-2048位,斜杠作为间隔字符和结束字符的路径。桶名称/子路径名称格式由大小写字母、数字、下划线(_)、中划线(-)组成。

  4. 参数设置完成后,单击“立即创建”,返回慢节点诊断列表页面。

    诊断作业大概运行10分钟,前往慢节点诊断作业列表,可以查看诊断作业的基本情况。

  5. 查看诊断结果,当诊断作业的状态变为“作业成功”,表示作业运行完成,其他状态请参考表3。用户根据故障诊断结果进行故障排查。

    表3 作业状态说明

    作业状态

    说明

    创建中

    作业刚创建还未被调度执行时状态。

    排队中

    表示诊断资源已被正在运行的诊断作业占满,需排队等待,同时展示预计等待时间。

    诊断中

    作业正在诊断。

    作业成功

    表示慢节点诊断作业运行结束,可前往慢节点诊断作业列表,可以查看诊断结果的基本情况。

    作业超时

    表示诊断资源严重不足,请联系技术支持处理。

    作业失败

    表示作业执行失败,可能存在的原因包括OBS无访问权限、日志路径下无符合要求的profiling数据、IAM鉴权失败、获取诊断镜像失败等问题,OBS权限或日志路径问题请确认创建慢节点诊断作业时输入的日志路径是否正确后重试,您也可以在作业状态的提示信息中,单击OBS路径规范,确认日志文件符合OBS路径格式规范后重试。其他原因请联系技术支持处理。

    创建失败

    表示创建失败,当前限制最多支持同时运行20个作业,如果排队中的作业超过20个,新创建的作业会失败,可等待作业运行结束后再试。

    终止中

    表示正在释放此诊断作业占用的资源。

    作业终止

    表示此诊断作业已经终止,所占用的资源已经成功释放。

查看慢节点诊断结果详情

  1. 登录ModelArts管理控制台,在左侧导航栏选择“运维管理 > 慢节点诊断”,进入慢节点诊断页面。
  2. 单击作业名称或右侧“操作 > 诊断详情”进入慢节点诊断详情界面。

    在慢节点诊断详情页可查看慢节点诊断结果,结果说明请见慢节点诊断结果说明
    图2 慢节点诊断详情页

慢节点诊断结果说明

慢节点诊断结果包括“慢卡分析”和“慢链路分析”。其中慢卡分析部分包括集群计算、通信和空闲这三者中存在故障的梗概,处理建议以及最慢的卡rank号集合;慢链路分析部分包括集群RDMA和SDMA带宽的梗概,处理建议以及最慢的卡rank号集合。

相关文档