文档首页/ AI开发平台ModelArts/ 故障排除/ 训练作业/ 训练作业运行失败/ 使用自定义镜像创建的训练作业一直处于运行中
更新时间:2024-01-26 GMT+08:00

使用自定义镜像创建的训练作业一直处于运行中

问题现象

使用自定义镜像创建训练作业,训练作业的“状态”一直处于“运行中”

原因分析及处理办法

日志打印如下内容,表示自定义镜像的CPU架构与资源池节点的CPU架构不一致。

standard_init_linux.go:215: exec user process caused "exec format error"
libcontainer: container start initialization failed: standard_init_linux.go:215: exec user process caused "exec format error"

常见场景为使用自定义镜像创建作业时选择的资源类型和规格错误。例如,自定义镜像是ARM CPU架构,应选用NPU规格的资源,却使用了X86 CPU/X86 GPU规格的资源。