智能运维
场景描述
训练作业运行过程中,ModelArts平台会对训练作业进行全方位的实时监测,确保作业的正常运行。训练作业详情中提供智能运维功能,便于用户对作业的监测和运维。
当训练作业运行结束后,如果作业状态是“失败“或者“已终止”, 可以在“智能运维”中根据需要选择诊断工具对作业进行诊断。不同工具的诊断范围和诊断时间存在差异,请根据需要选择诊断类型。
前提条件
故障监测需要用户创建训练作业时开启“自动重启”功能。
代码异常监测需要用户创建训练作业时开启“自动重启”功能。
性能监测依赖需要用户创建训练作业时开启“性能监控与诊断”功能。
实时监测
智能运维的实时监测分为故障监测、代码异常监测和性能监测。
当用户创建的训练作业开启了前提条件中对应的功能时,智能运维系统会实时监测训练作业,在界面能看到监测未防护、无风险、低风险、中风险、高风险和监测中等状态提示。监测异常时会有相应的风险等级和监测报告,便于用户及时处理异常作业。
|
实时监测类型 |
说明 |
监测异常风险等级 |
|---|---|---|
|
故障监测 |
当作业出现故障时,系统将自动进行重启恢复,以保障训练作业高可用。 |
中风险 高风险 |
|
代码异常监测 |
对当前训练作业代码进行实时监测,当出现异常时将自动生成诊断报告协助排障。 |
低风险 中风险 高风险 |
|
性能监测 |
实时监测训练作业的性能指标,当性能指标异常时,自动生成监测报告协助排障。 |
中风险 |
诊断工具
诊断工具暂时支持两种,性能分析和标准诊断。
|
诊断工具 |
工具说明 |
|---|---|
|
性能分析 |
针对训练中耗时超预期、资源利用率失衡等性能劣化问题,可实时观测 step 耗时曲线;支持手动采集 profiling 数据,采集完成后生成可视化分析结果。 |
|
标准诊断 |
主要是对训练作业环境信息、作业事件、作业日志、设备日志等进行检测,可识别作业运行环境、代码异常、硬件等故障。诊断时间与作业集群、作业日志大小正相关。 |
单击对应工具右侧的“立即诊断”,可对训练作业进行诊断检测。
诊断完成后可查看诊断报告。
查看监测报告
当实时监测监测到异常时,会有异常检测报告。单击“查看报告”可以查看详细诊断结果。