慢节点诊断
慢节点诊断
慢节点诊断能够支持Standard、Lite Cluster/Server形态下训练作业慢节点故障的定界定位能力。
当训练作业出现慢节点现象时,能够基于用户提供的profiling性能数据定界到发生慢节点的NPU卡,创建慢节点诊断作业,实现对AI作业过程中发生的慢节点故障进行诊断。
慢节点诊断作业结果可给出慢卡慢节点的具体信息、建议修复方案等内容,大大加速慢节点诊断效率,降低慢节点诊断运维门槛,帮助用户快速诊断和快速恢复业务。
约束限制
- 需要用户将采集的训练作业的profiling性能数据文件(*_ascend_pt/或*_ascend_ms/)按规定格式是转储到用户的OBS桶子某个目录下;
- 慢节点诊断结果保留时长最多6个月。
- 状态为“排队中”的作业超过20个时,新创建的作业会返回失败。
创建和查看慢节点诊断作业
当用户业务发生慢节点故障时,可通过输入profiling性能数据转储的OBS路径,创建慢节点诊断作业,实现对AI作业过程中发生的故障进行诊断。慢节点诊断作业能够对慢节点故障进行诊断。创建后可查看诊断结果,用于分析系统运行状态、定位和解决故障 。