文档首页/
AI开发平台ModelArts/
最佳实践/
DeepSeek基于Lite Server&Cluster推理/
Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案/
常见运维操作指导/
多实例推理服务无感升级指导
更新时间:2025-09-08 GMT+08:00
多实例推理服务无感升级指导
整体流程
升级过程中为最大限度减少服务中断,确保业务连续性,将采用逐实例滚动升级策略进行无感升级。整体流程如下:
- 通过多实例推理服务手动摘流指导删除一个旧版本的 KubeInfer 实例;
- 部署或扩容一个新版本的 KubeInfer 实例;
- 待新实例健康检查通过并稳定运行后,继续下一轮操作;
- 重复上述过程,逐个替换剩余旧实例,每次仅升级一个实例。
该策略以单实例为粒度进行替换,确保集群中始终有足够的服务实例处理请求,从而实现平滑升级,避免对线上业务造成显著影响。
操作指导
- 根据多实例推理服务手动摘流指导删除某个待升级实例。
- 指定实例删除完成之后,准备一份变更后的部署推理服务的yaml文件,并重新部署推理服务。
kubectl apply -f infer_vllm_kubeinfer.yaml
- 执行下述命令获取 Service 的 ”CLUSTER-IP”。
kubectl get svc
- 手动测试推理API,确认业务已恢复。
curl -ik -H 'Content-Type: application/json' -d '{"messages":[{"role":"user","content":"hello"}],"model":"deepseek","temperature":0.6,"max_tokens":1024}' -X POST http://${CLUSTER-IP}:9000/v1/chat/completions
- 重命名或删除status.json文件,并查看实例状态,直到所有实例状态为就绪。
- 查看实例日志,观察是否有流量接入。
父主题: 常见运维操作指导