更新时间:2026-02-05 GMT+08:00
分享

调试训练作业

ModelArts生产模式执行训练任务时,如果任务执行出错,会直接退出,导致难以查看容器状态以排查错误,尤其在训练启动参数、环境变量等配置有误时无法及时重试,带来不便。

因此,建议用户在初始适配期间使用如下方法保留容器,用于快速重试排障。

# 启动命令的最后一行
sleep 1h

使用CloudShell调试训练作业的详细操作方式请参见使用Cloud Shell调试生产训练作业

常见问题:

如何使用CloudShell查看ModelArts训练平台为用户进程注入的环境变量?

在CloudShell中使用env命令获得的是容器中的环境变量,与用户进程的环境变量有出入,实际应当使用如下方法:

  1. 执行如下命令查看用户进程PID。
    ps -aef
  2. 执行如下命令查看用户进程的环境变量。
    cat /proc/$PID/environ | tr '\0' '\n' 

相关文档