单机部署推理服务

使用Snt9x资源部署三方开源大模型推理，您需要参考下述命令生成部署所需的infer_vllm_kubeinfer.yaml文件，其中“--parameters“参数支持的参数详见表2，请按需配置。

# 单机场景参考：生成Qwen3-32B在Snt9b23下部署yaml，实例副本数为2，启动参数为版本推荐值
python3 gen_single_role_deploy_kubeinfer_yaml.py \
    --replicas=2 \
    --image-name="ascend_vllm:latest" \
    --resource-cpu="22" \
    --resource-mem="120Gi" \
    --resource-npu="2" \
    --mount-path=/mnt/deepseek \
    --script-path=/mnt/deepseek/deploy \
    --parameters="--extra-env-vars='DISABLE_QWEN_DP_PROJ=1,ENABLE_QWEN_HYPERDRIVE_OPT=1,ENABLE_QWEN_MICROBATCH=1,VLLM_ALLOW_LONG_MAX_MODEL_LEN=1' \
                  --model=/mnt/deepseek/model/qwen3-32b \
                  --served-model-name=qwen3-32b \
                  --max-model-len=65536 \
                  --max-num-seqs=120 \
                  --tensor-parallel-size=2 \
                  --gpu-memory-utilization=0.95 \
                  --no-enable-prefix-caching \
                  --additional-config='{\"ascend_turbo_graph_config\": {\"enabled\": true}, \"ascend_scheduler_config\": {\"enabled\": true}}'"

# 多机场景参考：生成Qwen3-235B-A22B在Snt9b下部署yaml，实例副本数为2，每个实例需要2个POD即16卡，启动参数为版本推荐值
python3 gen_single_role_deploy_kubeinfer_yaml.py \
    --replicas=2 \
    --role-size=2 \
    --image-name="ascend_vllm:latest" \
    --resource-cpu="175" \
    --resource-mem="700Gi" \
    --resource-npu="8" \
    --mount-path=/mnt/deepseek \
    --script-path=/mnt/deepseek/deploy \
    --parameters="--extra-env-vars='VLLM_ALLOW_LONG_MAX_MODEL_LEN=1' \
                  --model=/mnt/deepseek/model/qwen3-235b-a22b \
                  --served-model-name=qwen3-235b-a22b \
                  --max-model-len=65536 \
                  --max-num-seqs=120 \
                  --tensor-parallel-size=16 \
                  --gpu-memory-utilization=0.95 \
                  --no-enable-prefix-caching \
                  --additional-config='{\"ascend_turbo_graph_config\": {\"enabled\": true}, \"ascend_scheduler_config\": {\"enabled\": true}}'"

在K8s的master节点执行下面的命令部署三方开源大模型推理实例。
```
kubectl apply -f infer_vllm_kubeinfer.yaml
```
执行下述命令查看部署状态，当全部Pod的“READ“字段结果都为”1/1”时表示部署成功。
```
kubectl get po | grep infer
```
执行下述命令获取 Service 的 ”CLUSETER-IP”。
```
kubectl get svc
```

测试推理API

curl -ik -H 'Content-Type: application/json' -d '{"messages":[{"role":"user","content":"hello"}],"model":"qwen","temperature":0.6,"max_tokens":1024}' -X POST http://${CLUSTER-IP}:9000/v1/chat/completions

父主题： 基于KubeInfer的推理部署

上一篇：生成部署定义yaml

下一篇：LoadBalancer类型K8s service创建（可选）