更新时间:2024-12-17 GMT+08:00
分享

附录:工作负载Pod异常问题和解决方法

Pod状态为Pending

当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。

图1 pod状态pending

通过以下命令打印Pod日志信息。

kubectl describe pod ${pod_name}

volcano资源调度失败

当volcano的资源出现争抢时,会出现下图中的问题。

图2 volcano资源争抢

解决方法:

  1. 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。
    kubectl get pod -A -o wide
  2. 重启该Pod,通过delete的方式删除,但随后会自动重新启动。
    kubectl delete pod -n kube-system ${pod_scheduler_name}
    图3 scheduler
  3. 如果重启后,还是会Pending,建议多重复重启几次。

其他实例调度失败问题

首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。

相关文档