更新时间:2025-10-25 GMT+08:00
分享

自定义部署服务

概念解释

  • Ascend-vLLM框架

    Ascend-vLLM是华为云针对NPU优化的大模型推理框架,继承了vLLM的优点,并通过特定优化实现了更高的性能和易用性。它使得在NPU卡上运行大模型变得更加高效和便捷,为用户带来了极大的便利和性能提升。Ascend-vLLM可广泛应用于各种大模型推理任务,特别是在需要高性能和高效率的场景中,如自然语言处理、多模态理解等。

  • PD分离

    大模型推理是自回归的过程,有以下两阶段:

    • Prefill阶段(全量推理)

      将用户请求的prompt传入大模型,进行计算,中间结果写入KVCache并推出第1个token,属于计算密集型。

    • Decode阶段(增量推理)

      将请求的前1个token传入大模型,从显存读取前文产生的KVCache再进行计算,属于访存密集型。

    PD分离部署场景下,大模型推理的Prefill阶段(全量推理)和Decode阶段(增量推理)分别部署在不同的实例中同时进行推理,用于提高推理效率。

  • 混部

    相对于PD分离来说,混部是将Prefill和Decode阶段都放在一个实例中部署执行。

模板参数

不同的任务模板会有不同的参数。参数类型有预置模板参数和自定义参数,如果是预置参数,不支持删除;如果是自定义参数,支持删除,自定义参数会以环境变量的方式传到业务容器中。

表1 预置参数

参数名

参数解释

model_name

模型名称,支持DeepSeek-V3、DeepSeek-R1

sfs_turbo_id

挂载的SFS Turbo文件系统ID,会挂载到每个Lite Server节点上。如果该文件系统已经提前挂载到Lite Server上,此处仅做关联。如果该文件系统未挂载到Lite Server上,此处会自动关联。

SFS Turbo文件系统ID,推荐规格为1000 MB/s/TiB及以上,容量1.2T及以上。

如果不配置sfs_turbo_id,则默认使用云硬盘EVS,需要预留至少0.8T空间。

mount_path

SFS Turbo对应Lite Server节点中的挂载路径,默认为/mnt/aiserver/model,用于在节点内存储模型。

deploy_type

表示部署类型。

  • 取值为standard表示混部方式。
  • 取值为pd_separate表示PD分离部署方式。

p_num

PD分离部署模式下有此参数,填写为Prefill实例数量,当前仅支持多P1D场景。

d_num

PD分离部署模式下有此参数,填写为Decode实例数量,当前仅支持多P1D场景。

deploy_openwebui

表示是否部署OpenWebUI,取值支持true、false。默认为true,表示部署OpenWebUI。

支持添加自定义参数,或者通过JSON编辑自定义参数。预置参数和自定义参数加起来不能超过20条。

表2 自定义参数

参数名

参数解释

max_num_seqs

最大序列长度,建议值为12~24。

max_batched_tokens

最大批Token数量,建议值512~2048。

max_model_len

最大模型序列长度,建议值为512~2048。

相关文档