创建和查看慢节点诊断作业
当用户业务发生慢节点故障时,可通过输入profiling性能数据转储的OBS路径,创建慢节点诊断作业,实现对AI作业过程中发生的故障进行诊断。慢节点诊断作业能够对慢节点故障进行诊断。创建后可查看诊断结果,用于分析系统运行状态、定位和解决故障 。
具体流程如下:
准备profiling数据上传到OBS
使用慢节点诊断时,您需要将待分析训练作业的profiling性能数据上传至对象存储服务(OBS)中,并确保上传内容符合OBS路径格式规范。
训练作业profiling数据的采集方法如下:
|
profiling性能数据类型 |
profiling性能数据采集方法 |
|---|---|
|
Ascend PyTorch Profiler/msprof |
|
|
MindSpore Profiler |
请规范慢节点诊断路径格式,否则将导致作业失败。
在OBS路径下,包括Ascend PyTorch Profiler采集场景的*_ascend_pt性能数据结果目录,或者MindSpore Profiler采集场景的*_ascend_ms性能数据结果目录,以Ascend PyTorch Profiler采集场景的*_ascend_pt性能数据示例:

创建慢节点诊断作业
- 登录ModelArts管理控制台,在左侧导航栏选择“运维管理 > 慢节点诊断”,进入慢节点诊断页面。
- 单击“创建作业”进入创建作业界面。
- 在创建慢节点诊断作业界面,参考表2填写相应参数。
- 参数设置完成后,单击“立即创建”,返回慢节点诊断列表页面。
诊断作业大概运行10分钟,前往慢节点诊断作业列表,可以查看诊断作业的基本情况。
- 查看诊断结果,当诊断作业的状态变为“作业成功”,表示作业运行完成,其他状态请参考表3。用户根据故障诊断结果进行故障排查。
表3 作业状态说明 作业状态
说明
创建中
作业刚创建还未被调度执行时状态。
排队中
表示诊断资源已被正在运行的诊断作业占满,需排队等待,同时展示预计等待时间。
诊断中
作业正在诊断。
作业成功
表示慢节点诊断作业运行结束,可前往慢节点诊断作业列表,可以查看诊断结果的基本情况。
作业超时
表示诊断资源严重不足,请联系技术支持处理。
作业失败
表示作业执行失败,可能存在的原因包括OBS无访问权限、日志路径下无符合要求的profiling数据、IAM鉴权失败、获取诊断镜像失败等问题,OBS权限或日志路径问题请确认创建慢节点诊断作业时输入的日志路径是否正确后重试,您也可以在作业状态的提示信息中,单击OBS路径规范,确认日志文件符合OBS路径格式规范后重试。其他原因请联系技术支持处理。
创建失败
表示创建失败,当前限制最多支持同时运行20个作业,如果排队中的作业超过20个,新创建的作业会失败,可等待作业运行结束后再试。
终止中
表示正在释放此诊断作业占用的资源。
作业终止
表示此诊断作业已经终止,所占用的资源已经成功释放。
查看慢节点诊断结果详情
- 登录ModelArts管理控制台,在左侧导航栏选择“运维管理 > 慢节点诊断”,进入慢节点诊断页面。
- 单击作业名称或右侧“操作 > 诊断详情”进入慢节点诊断详情界面。
在慢节点诊断详情页可查看慢节点诊断结果,结果说明请见慢节点诊断结果说明。图2 慢节点诊断详情页