文档首页/ AI开发平台ModelArts/ 最佳实践/ 历史待下线案例/ DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导
更新时间:2025-09-12 GMT+08:00
分享

DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导

方案概述

本方案介绍了在ModelArts的Lite Server上使用昇腾计算资源开展DeepSeek蒸馏版模型推理部署的详细过程。推理框架使用Ascend-vLLM。

DeepSeek的蒸馏版模型是基于知识蒸馏技术开发的一系列模型,旨在将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)上,以实现模型轻量化,同时保持较高的性能。

资源规划

本方案部署支持用BF16量化权重,使用的Ascend Snt9B资源规格见下表。

以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。

表1 支持最小卡数和最大序列说明

序号

模型名

32GB显存

64GB显存

最小卡数

最大序列(K)

max-model-len

最小卡数

最大序列(K)

max-model-len

1

DeepSeek-R1-Distill-Qwen-1.5B

1

32

1

32

2

DeepSeek-R1-Distill-Qwen-7B

1

32

1

32

3

DeepSeek-R1-Distill-Llama-8B

1

32

1

128

4

DeepSeek-R1-Distill-Qwen-14B

2

32

1

32

5

DeepSeek-R1-Distill-Qwen-32B

4

32

2

64

6

DeepSeek-R1-Distill-Llama-70B

8

32

4

64

支持的模型列表和权重文件

支持的DeepSeek蒸馏版模型列表和权重文件获取路径如下,详细的模型介绍请参见DeepSeek-R1

表2 DeepSeek蒸馏版模型列表

Model

Base Model

Download

DeepSeek-R1-Distill-Qwen-1.5B

Qwen2.5-Math-1.5B

HuggingFace

DeepSeek-R1-Distill-Qwen-7B

Qwen2.5-Math-7B

HuggingFace

DeepSeek-R1-Distill-Llama-8B

Llama-3.1-8B

HuggingFace

DeepSeek-R1-Distill-Qwen-14B

Qwen2.5-14B

HuggingFace

DeepSeek-R1-Distill-Qwen-32B

Qwen2.5-32B

HuggingFace

DeepSeek-R1-Distill-Llama-70B

Llama-3.3-70B-Instruct

HuggingFace

推理部署方案

蒸馏版本模型的部署方案和对应Base模型的部署方式一致。

推理方案部署的详细操作过程请参见文档《 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导》。

蒸馏版本模型权重文件获取地址需要参考本章节中的表2

相关文档