文档首页/
    
      
      AI开发平台ModelArts/
      
      
        
        
        最佳实践/
        
        
        DeepSeek&Qwen3基于Lite Server&Cluster推理/
        
        
        DeepSeek&Qwen3模型基于Lite Server适配NPU的混部推理解决方案/
        
        
        基于KubeInfer的推理部署/
        
      
      扩缩容推理服务(可选)
    
  
  
    
        更新时间:2025-10-14 GMT+08:00
        
          
          
        
      
      
      
      
      
      
      
      
  
      
      
      
        
扩缩容推理服务(可选)
针对该场景,可以直接编辑K8s配置,通过修改实例副本数来实现扩缩容。其中,增大该数值即为扩容,减小该数值即为缩容。命令如下:
kubectl get kubeinfer
kubectl edit kubeinfer ${kubeinfer_name}
 或修改yaml配置,然后重新生效:
vim infer_vllm_kubeinfer.yaml kubectl apply -f infer_vllm_kubeinfer.yaml
具体修改内容详见基于KubeInfer的部署yaml文件说明,参考如下:
kind: KubeInfer apiVersion: infer.modelarts.huaweicloud/v1 spec: replicas: 1 # kubeinfer实例instance数
 
  - 增加实例数量时,需要保证当前集群有足够资源。
 - 减少实例数量时,可能会出现部分请求中断。
 
   父主题: 基于KubeInfer的推理部署