更新时间:2025-09-08 GMT+08:00
分享

扩缩容推理服务(可选)

针对该场景,可以直接编辑K8s配置,通过修改实例副本数来实现扩缩容。其中,增大该数值即为扩容,减小该数值即为缩容。命令如下:

kubectl get kubeinfer
kubectl edit kubeinfer ${kubeinfer_name}

或修改yaml配置,然后重新生效:

vim infer_vllm_kubeinfer.yaml
kubectl apply -f infer_vllm_kubeinfer.yaml

具体修改内容详见基于KubeInfer的部署yaml文件说明,参考如下:

kind: KubeInfer
apiVersion: infer.modelarts.huaweicloud/v1
spec:
  replicas: 1     # kubeinfer实例instance数
  1. 增加实例数量时,需要保证当前集群有足够资源。
  2. 减少实例数量时,可能会出现部分请求中断。

相关文档