更新时间:2025-09-08 GMT+08:00
分享

多实例推理服务无感升级指导

整体流程

升级过程中为最大限度减少服务中断,确保业务连续性,将采用逐实例滚动升级策略进行无感升级。整体流程如下:

  1. 通过多实例推理服务手动摘流指导删除一个旧版本的 KubeInfer 实例;
  2. 部署或扩容一个新版本的 KubeInfer 实例;
  3. 待新实例健康检查通过并稳定运行后,继续下一轮操作;
  4. 重复上述过程,逐个替换剩余旧实例,每次仅升级一个实例。

该策略以单实例为粒度进行替换,确保集群中始终有足够的服务实例处理请求,从而实现平滑升级,避免对线上业务造成显著影响。

操作指导

  1. 根据多实例推理服务手动摘流指导删除某个待升级实例。
  2. 指定实例删除完成之后,准备一份变更后的部署推理服务的yaml文件,并重新部署推理服务。

    kubectl apply -f infer_vllm_kubeinfer.yaml

  3. 执行下述命令获取 Service 的 ”CLUSTER-IP”。

    kubectl get svc

  4. 手动测试推理API,确认业务已恢复。

    curl -ik -H 'Content-Type: application/json' -d '{"messages":[{"role":"user","content":"hello"}],"model":"deepseek","temperature":0.6,"max_tokens":1024}' -X POST http://${CLUSTER-IP}:9000/v1/chat/completions

  5. 重命名或删除status.json文件,并查看实例状态,直到所有实例状态为就绪。
  6. 查看实例日志,观察是否有流量接入。

相关文档