调试训练作业
在ModelArts生产模式执行训练任务时,如果任务执行出错,会直接退出,导致难以查看容器状态以排查错误,尤其在训练启动参数、环境变量等配置有误时无法及时重试,带来不便。
因此,建议用户在初始适配期间使用如下方法保留容器,用于快速重试排障。
# 启动命令的最后一行 sleep 1h
使用CloudShell调试训练作业的详细操作方式请参见使用Cloud Shell调试生产训练作业。
常见问题:
如何使用CloudShell查看ModelArts训练平台为用户进程注入的环境变量?
在CloudShell中使用env命令获得的是容器中的环境变量,与用户进程的环境变量有出入,实际应当使用如下方法:
- 执行如下命令查看用户进程PID。
ps -aef
- 执行如下命令查看用户进程的环境变量。
cat /proc/$PID/environ | tr '\0' '\n'
