文档首页/
    
      
      AI开发平台ModelArts/
      
      
        
        
        最佳实践/
        
        
        DeepSeek&Qwen3基于Lite Server&Cluster推理/
        
        
        DeepSeek&Qwen3模型基于Lite Server适配NPU的混部推理解决方案/
        
        
        基于KubeInfer的推理部署/
        
      
      混部部署开源三方大模型推理服务
    
  
  
    
        更新时间:2025-10-16 GMT+08:00
        
          
          
        
      
      
      
      
      
      
      
      
  
      
      
      
        
混部部署开源三方大模型推理服务
- 使用Snt9x资源部署三方开源大模型推理,您需要参考下述命令生成部署所需的infer_vllm_kubeinfer.yaml文件,其中“--parameters“参数支持的参数详见表1,请按需配置。
   
   
# 单机场景参考:生成Qwen3-32B在Snt9b23下部署yaml,实例副本数为2,启动参数为版本推荐值 python3 gen_single_role_deploy_kubeinfer_yaml.py \ --replicas=2 \ --image-name="ascend_vllm:latest" \ --resource-cpu="22" \ --resource-mem="120Gi" \ --resource-npu="2" \ --mount-path=/mnt/deepseek \ --script-path=/mnt/deepseek/deploy \ --parameters="--extra-env-vars='DISABLE_QWEN_DP_PROJ=1,ENABLE_QWEN_HYPERDRIVE_OPT=1,ENABLE_QWEN_MICROBATCH=1,VLLM_ALLOW_LONG_MAX_MODEL_LEN=1,USE_ACLGRAPH=0' \ --model=/mnt/deepseek/model/qwen3-32b \ --served-model-name=qwen3-32b \ --max-model-len=65536 \ --max-num-seqs=120 \ --tensor-parallel-size=2 \ --gpu-memory-utilization=0.95 \ --no-enable-prefix-caching \ --additional-config='{\"ascend_turbo_graph_config\": {\"enabled\": true}, \"ascend_scheduler_config\": {\"enabled\": true}}'" # 多机场景参考:生成Qwen3-235B-A22B在Snt9b下部署yaml,实例副本数为2,每个实例需要2个POD即16卡,启动参数为版本推荐值 python3 gen_single_role_deploy_kubeinfer_yaml.py \ --replicas=2 \ --role-size=2 \ --image-name="ascend_vllm:latest" \ --resource-cpu="175" \ --resource-mem="700Gi" \ --resource-npu="8" \ --mount-path=/mnt/deepseek \ --script-path=/mnt/deepseek/deploy \ --parameters="--extra-env-vars='VLLM_ALLOW_LONG_MAX_MODEL_LEN=1,USE_ACLGRAPH=0' \ --model=/mnt/deepseek/model/qwen3-235b-a22b \ --served-model-name=qwen3-235b-a22b \ --max-model-len=65536 \ --max-num-seqs=120 \ --tensor-parallel-size=16 \ --gpu-memory-utilization=0.95 \ --no-enable-prefix-caching \ --additional-config='{\"ascend_turbo_graph_config\": {\"enabled\": true}, \"ascend_scheduler_config\": {\"enabled\": true}}'" - 根据部署架构,在工作节点或控制节点上执行下面的k8s命令,完成第三方开源大模型推理实例的部署。
   
   
kubectl apply -f infer_vllm_kubeinfer.yaml
 - 执行下述命令查看部署状态,当全部Pod的“READ“字段结果都为”1/1”时表示部署成功。
   
   
kubectl get po | grep infer
 - 执行下述命令获取 Service 的 ”CLUSETER-IP”。
   
   
kubectl get svc

 - 测试推理API
   
   
curl -ik -H 'Content-Type: application/json' -d '{"messages":[{"role":"user","content":"hello"}],"model":"qwen","temperature":0.6,"max_tokens":1024}' -X POST http://${CLUSTER-IP}:9000/v1/chat/completions 
   父主题: 基于KubeInfer的推理部署