更新时间:2025-10-14 GMT+08:00
分享

混部部署DeepSeek推理服务

  1. 使用Snt9b资源部署DeepSeek推理,您需要参考下述命令生成部署所需的infer_vllm_kubeinfer.yaml文件,其中“--parameters“参数支持的参数详见表1请按需配置

    # 场景参考:生成DeepSeek-R1在Snt9b下部署yaml,实例副本数为2,DP部署每个实例需要4个POD即32卡,启动参数为版本推荐值
    python3 gen_single_role_deploy_kubeinfer_yaml.py \
        --replicas=2 \
        --role-size=4 \
        --image-name="ascend_vllm:latest" \
        --resource-cpu="175" \
        --resource-mem="700Gi" \
        --resource-npu="8" \
        --mount-path=/mnt/deepseek \
        --script-path=/mnt/deepseek/deploy \
        --parameters="--model-type=deepseek \
                      --dp-deploy=1 \
                      --tmpfs-path=/mnt/deepseek/tmpfs_model/deepseek-r1-w8a8 \
                      --enable-fusion-spec=1 \
                      --model=/mnt/deepseek/model/deepseek-r1-w8a8 \
                      --max-model-len=131072 \
                      --max-num-seqs=32 \
                      --gpu-memory-utilization=0.95 \
                      --tensor-parallel-size=32 \
                      --num-speculative-tokens=2 \
                      --num-scheduler-steps=1"
    

  2. 根据部署架构,在工作节点或控制节点上执行下面的k8s命令,完成第三方开源大模型推理实例的部署。

    kubectl apply -f infer_vllm_kubeinfer.yaml

  3. 执行下述命令查看部署状态,当全部Pod的“READ“字段结果都为”1/1”时表示部署成功。

    kubectl get po | grep infer

  4. 执行下述命令获取 Service 的 ”CLUSETER-IP”。

    kubectl get svc

  5. 测试推理API

    curl -ik -H 'Content-Type: application/json' -d '{"messages":[{"role":"user","content":"hello"}],"model":"deepseek","temperature":0.6,"max_tokens":2000}' -X POST http://${CLUSTER-IP}:9000/v1/chat/completions

相关文档