更新时间:2024-01-26 GMT+08:00
使用自定义镜像创建的训练作业一直处于运行中
问题现象
使用自定义镜像创建训练作业,训练作业的“状态”一直处于“运行中”。
原因分析及处理办法
日志打印如下内容,表示自定义镜像的CPU架构与资源池节点的CPU架构不一致。
standard_init_linux.go:215: exec user process caused "exec format error" libcontainer: container start initialization failed: standard_init_linux.go:215: exec user process caused "exec format error"
常见场景为使用自定义镜像创建作业时选择的资源类型和规格错误。例如,自定义镜像是ARM CPU架构,应选用NPU规格的资源,却使用了X86 CPU/X86 GPU规格的资源。
父主题: 训练作业运行失败