文档首页/
AI开发平台ModelArts/
最佳实践/
LLM大语言模型训练推理/
主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.909)/
附录:工作负载Pod异常问题和解决方法
更新时间:2024-11-21 GMT+08:00
附录:工作负载Pod异常问题和解决方法
Pod状态为Pending
当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。
图1 pod状态pending
通过以下命令打印Pod日志信息。
kubectl describe pod ${pod_name}
volcano资源调度失败
当volcano的资源出现争抢时,会出现以下图中的问题。
图2 volcano资源争抢
解决方法:
- 通过打印所有Pod的信息,并找到命名有scheduler字段的Pod。
kubectl get pod -A -o wide
- 重启该Pod,通过delete的方式删除,但随后会自动重新启动。
kubectl delete pod -n kube-system ${pod_scheduler_name}
图3 scheduler
- 若重启后,还是会Pending,建议多重复重启几次。
其他实例调度失败问题
首先通过打印Pod日志信息。根据错误信息,可通过访问官网链接:工作负载异常:实例调度失败,进行查找。