更新时间:2026-02-06 GMT+08:00
分享

智能运维

场景描述

训练作业运行过程中,ModelArts平台会对训练作业进行全方位的实时监测,确保作业的正常运行。训练作业详情中提供智能运维功能,便于用户对作业的监测和运维。

当训练作业运行结束后,如果作业状态是“失败“或者“已终止”, 可以在“智能运维”中根据需要选择诊断工具对作业进行诊断。不同工具的诊断范围和诊断时间存在差异,请根据需要选择诊断类型。

前提条件

故障监测需要用户创建训练作业时开启“自动重启”功能。

代码异常监测需要用户创建训练作业时开启“自动重启”功能。

性能监测依赖需要用户创建训练作业时开启“性能监控与诊断”功能。

实时监测

智能运维的实时监测分为故障监测、代码异常监测和性能监测。

当用户创建的训练作业开启了前提条件中对应的功能时,智能运维系统会实时监测训练作业,在界面能看到监测未防护、无风险、低风险、中风险、高风险和监测中等状态提示。监测异常时会有相应的风险等级和监测报告,便于用户及时处理异常作业。

表1 实时监测对比

实时监测类型

说明

监测异常风险等级

故障监测

当作业出现故障时,系统将自动进行重启恢复,以保障训练作业高可用。

中风险

高风险

代码异常监测

对当前训练作业代码进行实时监测,当出现异常时将自动生成诊断报告协助排障。

低风险

中风险

高风险

性能监测

实时监测训练作业的性能指标,当性能指标异常时,自动生成监测报告协助排障。

中风险

诊断工具

诊断工具暂时支持两种,性能分析和标准诊断。

表2

诊断工具

工具说明

性能分析

针对训练中耗时超预期、资源利用率失衡等性能劣化问题,可实时观测 step 耗时曲线;支持手动采集 profiling 数据,采集完成后生成可视化分析结果。

标准诊断

主要是对训练作业环境信息、作业事件、作业日志、设备日志等进行检测,可识别作业运行环境、代码异常、硬件等故障。诊断时间与作业集群、作业日志大小正相关。

单击对应工具右侧的“立即诊断”,可对训练作业进行诊断检测。

诊断完成后可查看诊断报告。

查看监测报告

当实时监测监测到异常时,会有异常检测报告。单击“查看报告”可以查看详细诊断结果。

  • 代码异常监测报告

    诊断结果中包含故障事件涉及的故障设备、关键日志、故障类别、故障组件、故障模块以及处理建议方案等信息。

查看诊断报告

诊断完成后,可在训练作业详情页的“智能运维”页签单击“诊断报告”查看详情。也可以在“运维管理 > 日志诊断”的列表中查找对应的作业,查看诊断详情。

诊断报告可以详细查看诊断作业的基础信息和诊断结果。

  • 基础信息

    包括作业ID、诊断耗时、诊断创建时间、更新时间、创建者、描述、资源类型、训练作业ID等内容。

  • 诊断结果

    包括现象描述、故障描述和故障处理建议方案等内容。

相关文档