更新时间:2023-04-27 GMT+08:00
分享

作业执行失败排查思路

启动作业后作业一直处于已提交的状态

问题现象

作业投递后一直处于已提交的状态。

问题排查和解决方案

  1. 查看execution log, 若execution log为空,请提交工单或联系服务技术支持。
  2. execution log 提示K8S pod can‘t be scheduled,请根据日志信息扩容计算资源。
  3. execution log提示can't lock file,重试或者克隆作业即可。
  4. execution log提示java.text.ParseException: Unparseable date,请提交工单或联系服务技术支持。
  5. execution log提示其它因脚本语法的问题,请根据报错信息进行修改,若无法解决请提交工单或联系服务技术支持。

作业状态已为完成态,task仍在运行中

问题现象

作业的状态已为完成态(失败、成功、取消),但是仍有部分task处于运行中。

解决方案

无需特殊处理,以作业状态为准,查看异常的task日志。

重试作业或者删除作业出现内部异常

问题现象

启动作业立即取消作业,进行重试或者删除作业出现内部异常。

问题原因

投递作业属于异步动作,立即取消可能存在作业未完成投递,Nextflow对于不存在的作业做了静默处理。

解决方案

  1. 避免启动作业后立即取消。
  2. 克隆作业即可。

process使用errorStrategy 'ignore'时整个作业不会结束

问题现象

process中使用了errorStrategy 'ignore',当该process因为某种原因失败后,整个作业的状态一直处于运行中。

问题原因

失败的task被忽略,但是后续依赖该process的task会被挂起。

解决方案

不建议使用errorStrategy 'ignore'。

相关文档