作业执行失败排查思路
启动作业后作业一直处于已提交的状态
问题现象
作业投递后一直处于已提交的状态。
问题排查和解决方案
- 查看execution log, 若execution log为空,请提交工单或联系服务技术支持。
- execution log 提示K8S pod can‘t be scheduled,请根据日志信息扩容计算资源。
- execution log提示can't lock file,重试或者克隆作业即可。
- execution log提示java.text.ParseException: Unparseable date,请提交工单或联系服务技术支持。
- execution log提示其它因脚本语法的问题,请根据报错信息进行修改,若无法解决请提交工单或联系服务技术支持。
作业状态已为完成态,task仍在运行中
问题现象
作业的状态已为完成态(失败、成功、取消),但是仍有部分task处于运行中。
解决方案
无需特殊处理,以作业状态为准,查看异常的task日志。
重试作业或者删除作业出现内部异常
问题现象
启动作业立即取消作业,进行重试或者删除作业出现内部异常。
问题原因
投递作业属于异步动作,立即取消可能存在作业未完成投递,Nextflow对于不存在的作业做了静默处理。
解决方案
- 避免启动作业后立即取消。
- 克隆作业即可。
process使用errorStrategy 'ignore'时整个作业不会结束
问题现象
process中使用了errorStrategy 'ignore',当该process因为某种原因失败后,整个作业的状态一直处于运行中。
问题原因
失败的task被忽略,但是后续依赖该process的task会被挂起。
解决方案
不建议使用errorStrategy 'ignore'。