更新时间:2025-09-08 GMT+08:00
分享

PD分离部署下硬件故障手动恢复机制

在非硬件故障或资源有热备的情况下,通常基于KubeInfer的自动恢复机制或K8s健康检查自动恢复机制能够实现实例的自动恢复。但如果是硬件故障且无热备,此时可通过下述方法实现故障降级快速恢复业务。核心思路是通过降低P的个数,由KubeInfer自动隔离故障节点。操作步骤如下:

  1. 【可选】如果部署的实例是多副本,则参考扩缩容推理服务(可选)对PD实例缩容一个副本
  2. 将其中一个副本的P实例缩小P的个数。参考升级推理服务(可选),编辑deepseek_kubeinfer.yaml文件,找到Prefill实例定义的role,删除最后一个prefill的role定义内容,重新执行命令应用新的deepseek_kubeinfer.yaml文件实现P的缩容

相关文档