自定义部署服务

Ascend-vLLM框架：
Ascend-vLLM是华为云针对NPU优化的大模型推理框架，继承了vLLM的优点，并通过特定优化实现了更高的性能和易用性。它使得在NPU卡上运行大模型变得更加高效和便捷，为用户带来了极大的便利和性能提升。Ascend-vLLM可广泛应用于各种大模型推理任务，特别是在需要高性能和高效率的场景中，如自然语言处理、多模态理解等。
PD分离
大模型推理是自回归的过程，有以下两阶段：
- Prefill阶段（全量推理）
  将用户请求的prompt传入大模型，进行计算，中间结果写入KVCache并推出第1个token，属于计算密集型。
- Decode阶段（增量推理）
  将请求的前1个token传入大模型，从显存读取前文产生的KVCache再进行计算，属于访存密集型。
PD分离部署场景下，大模型推理的Prefill阶段（全量推理）和Decode阶段（增量推理）分别部署在不同的实例中同时进行推理，用于提高推理效率。
混部
相对于PD分离来说，混部是将Prefill和Decode阶段都放在一个实例中部署执行。

不同的任务模板会有不同的参数。参数类型有预置模板参数和自定义参数，如果是预置参数，不支持删除；如果是自定义参数，支持删除，自定义参数会以环境变量的方式传到业务容器中。

表1 预置参数
参数名	参数解释
model_name	模型名称，支持DeepSeek-V3、DeepSeek-R1
sfs_turbo_id	挂载的SFS Turbo文件系统ID，会挂载到每个Lite Server节点上。如果该文件系统已经提前挂载到Lite Server上，此处仅做关联。如果该文件系统未挂载到Lite Server上，此处会自动关联。 SFS Turbo文件系统ID，推荐规格为1000 MB/s/TiB及以上，容量1.2T及以上。如果不配置sfs_turbo_id，则默认使用云硬盘EVS，需要预留至少0.8T空间。
mount_path	SFS Turbo对应Lite Server节点中的挂载路径，默认为/mnt/aiserver/model，用于在节点内存储模型。
deploy_type	表示部署类型。取值为standard表示混部方式。取值为pd_separate表示PD分离部署方式。
p_num	PD分离部署模式下有此参数，填写为Prefill实例数量，当前仅支持多P1D场景。
d_num	PD分离部署模式下有此参数，填写为Decode实例数量，当前仅支持多P1D场景。
deploy_openwebui	表示是否部署OpenWebUI，取值支持true、false。默认为true，表示部署OpenWebUI。

支持添加自定义参数，或者通过JSON编辑自定义参数。预置参数和自定义参数加起来不能超过20条。

父主题： Server

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨