使用自定义镜像创建训练作业找不到启动文件
问题现象
使用自定义镜像创建训练作业,出现如下报错,提示找不到运行的主文件:no such file or directory。
原因分析
根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。
处理方法
需要排查执行命令的启动文件目录是否正确,具体操作如下:
在ModelArts管理控制台,使用训练的自定义镜像创建训练作业时,“创建方式”选择“自定义算法”,“启动方式”选择“自定义”。
例如,当训练代码启动脚本在OBS路径为“obs://bucket-name/app/code/train.py”,创建作业时配置代码目录为“/bucket-name/app/code/”。则代码目录配置完成后,执行如下命令,那么“run_train.sh”将选中的“code”文件夹下载到训练容器的“/home/ma-user/modelarts/user-job-dir”目录中。
bash /home/ma-user/modelarts/user-job-dir/run_train.sh #训练自定义镜像-预置命令场景
运行命令就可以设置为:
bash /home/ma-user/modelarts/user-job-dir/run_train.sh python /home/ma-user/modelarts/user-job-dir/code/train.py {python_file_parameter} #训练自定义镜像-预置命令场景