更新时间:2025-08-04 GMT+08:00
分享

慢节点诊断

慢节点诊断

慢节点诊断能够支持Standard、Lite Cluster/Server形态下训练作业慢节点故障的定界定位能力。

当训练作业出现慢节点现象时,能够基于用户提供的profiling性能数据定界到发生慢节点的NPU卡,创建慢节点诊断作业,实现对AI作业过程中发生的慢节点故障进行诊断。

慢节点诊断作业结果可给出慢卡慢节点的具体信息、建议修复方案等内容,大大加速慢节点诊断效率,降低慢节点诊断运维门槛,帮助用户快速诊断和快速恢复业务。

约束限制

  • 需要用户将采集的训练作业的profiling性能数据文件(*_ascend_pt/或*_ascend_ms/)按规定格式是转储到用户的OBS桶子某个目录下;
  • 慢节点诊断结果保留时长最多6个月。
  • 状态为“排队中”的作业超过20个时,新创建的作业会返回失败。

创建和查看慢节点诊断作业

当用户业务发生慢节点故障时,可通过输入profiling性能数据转储的OBS路径,创建慢节点诊断作业,实现对AI作业过程中发生的故障进行诊断。慢节点诊断作业能够对慢节点故障进行诊断。创建后可查看诊断结果,用于分析系统运行状态、定位和解决故障 。

创建和查看慢节点诊断作业

管理慢节点诊断作业

创建慢节点诊断作业后,在诊断详情页查看诊断结果,根据诊断根因分析及建议进行故障定位及修复。

管理慢节点诊断作业

相关文档