DeepSeek蒸馏版模型基于ModelArts Lite Server适配vLLM的推理部署指导
方案概述
本方案介绍了在ModelArts的Lite Server上使用昇腾计算资源开展DeepSeek蒸馏版模型推理部署的详细过程。推理框架使用Ascend-vLLM。
DeepSeek的蒸馏版模型是基于知识蒸馏技术开发的一系列模型,旨在将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)上,以实现模型轻量化,同时保持较高的性能。
资源规划
本方案部署支持用BF16量化权重,使用的Ascend Snt9B资源规格见下表。
以下值是在gpu-memory-utilization为0.9时测试得出,为服务部署所需的最小昇腾卡数及该卡数下推荐的最大max-model-len长度,不代表最佳性能。
序号 |
模型名 |
32GB显存 |
64GB显存 |
||
---|---|---|---|---|---|
最小卡数 |
最大序列(K) max-model-len |
最小卡数 |
最大序列(K) max-model-len |
||
1 |
DeepSeek-R1-Distill-Qwen-1.5B |
1 |
32 |
1 |
32 |
2 |
DeepSeek-R1-Distill-Qwen-7B |
1 |
32 |
1 |
32 |
3 |
DeepSeek-R1-Distill-Llama-8B |
1 |
32 |
1 |
128 |
4 |
DeepSeek-R1-Distill-Qwen-14B |
2 |
32 |
1 |
32 |
5 |
DeepSeek-R1-Distill-Qwen-32B |
4 |
32 |
2 |
64 |
6 |
DeepSeek-R1-Distill-Llama-70B |
8 |
32 |
4 |
64 |
支持的模型列表和权重文件
支持的DeepSeek蒸馏版模型列表和权重文件获取路径如下,详细的模型介绍请参见DeepSeek-R1。
推理部署方案
蒸馏版本模型的部署方案和对应Base模型的部署方式一致。
推理方案部署的详细操作过程请参见文档《 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导》。
蒸馏版本模型权重文件的获取地址需要参考本章节中的表2。