文档首页/
AI开发平台ModelArts/
最佳实践/
DeepSeek基于Lite Server&Cluster推理/
Qwen3模型基于ModelArts Lite Cluster适配Snt9b23的混部推理解决方案/
基于KubeInfer的推理部署/
扩缩容推理服务(可选)
更新时间:2025-09-08 GMT+08:00
扩缩容推理服务(可选)
针对该场景,可以直接编辑K8s配置,通过修改实例副本数来实现扩缩容。其中,增大该数值即为扩容,减小该数值即为缩容。命令如下:
kubectl get kubeinfer kubectl edit kubeinfer ${kubeinfer_name}
或修改yaml配置,然后重新生效:
vim infer_vllm_kubeinfer.yaml kubectl apply -f infer_vllm_kubeinfer.yaml
具体修改内容详见基于KubeInfer的部署yaml文件说明,参考如下:
kind: KubeInfer apiVersion: infer.modelarts.huaweicloud/v1 spec: replicas: 1 # kubeinfer实例instance数

- 增加实例数量时,需要保证当前集群有足够资源。
- 减少实例数量时,可能会出现部分请求中断。
父主题: 基于KubeInfer的推理部署