文档首页/ AI开发平台ModelArts/ 故障排除/ 训练作业/ 训练作业运行失败/ 训练作业的监控内存指标持续升高直至作业失败
更新时间:2024-01-16 GMT+08:00
分享

训练作业的监控内存指标持续升高直至作业失败

问题现象

训练作业的“状态”“运行失败”

原因分析

训练作业的监控内存指标持续升高导致最后训练作业失败。

处理步骤

  1. 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。
    • 是,训练作业的日志里存在OOM报错,执行2
    • 否,训练作业的日志里没有OOM报错,但是存在监控指标异常,执行3
  2. 排查训练代码是否存在不断占用资源的代码,使得资源未被合理使用。
    • 是,优化代码,等待作业运行正常。
    • 否,提高训练作业使用的资源规格或者联系技术支持。
  3. 重启训练作业,使用CloudShell登录训练容器监控内存指标,确认是否有突发性的内存增加现象。
    • 是,排查内存突发增加的时间点附近的训练作业日志,优化对应的代码逻辑,减少内存申请。
    • 否,提高训练作业使用的资源规格或者联系技术支持。

相关文档