自定义部署服务
概念解释
- Ascend-vLLM框架:
Ascend-vLLM是华为云针对NPU优化的大模型推理框架,继承了vLLM的优点,并通过特定优化实现了更高的性能和易用性。它使得在NPU卡上运行大模型变得更加高效和便捷,为用户带来了极大的便利和性能提升。Ascend-vLLM可广泛应用于各种大模型推理任务,特别是在需要高性能和高效率的场景中,如自然语言处理、多模态理解等。
- PD分离
大模型推理是自回归的过程,有以下两阶段:
PD分离部署场景下,大模型推理的Prefill阶段(全量推理)和Decode阶段(增量推理)分别部署在不同的实例中同时进行推理,用于提高推理效率。
- 混部
相对于PD分离来说,混部是将Prefill和Decode阶段都放在一个实例中部署执行。
模板参数
不同的任务模板会有不同的参数。参数类型有预置模板参数和自定义参数,如果是预置参数,不支持删除;如果是自定义参数,支持删除,自定义参数会以环境变量的方式传到业务容器中。
|
参数名 |
参数解释 |
|---|---|
|
model_name |
模型名称,支持DeepSeek-V3、DeepSeek-R1 |
|
sfs_turbo_id |
挂载的SFS Turbo文件系统ID,会挂载到每个Lite Server节点上。如果该文件系统已经提前挂载到Lite Server上,此处仅做关联。如果该文件系统未挂载到Lite Server上,此处会自动关联。 SFS Turbo文件系统ID,推荐规格为1000 MB/s/TiB及以上,容量1.2T及以上。 如果不配置sfs_turbo_id,则默认使用云硬盘EVS,需要预留至少0.8T空间。 |
|
mount_path |
SFS Turbo对应Lite Server节点中的挂载路径,默认为/mnt/aiserver/model,用于在节点内存储模型。 |
|
deploy_type |
表示部署类型。
|
|
p_num |
PD分离部署模式下有此参数,填写为Prefill实例数量,当前仅支持多P1D场景。 |
|
d_num |
PD分离部署模式下有此参数,填写为Decode实例数量,当前仅支持多P1D场景。 |
|
deploy_openwebui |
表示是否部署OpenWebUI,取值支持true、false。默认为true,表示部署OpenWebUI。 |
支持添加自定义参数,或者通过JSON编辑自定义参数。预置参数和自定义参数加起来不能超过20条。
|
参数名 |
参数解释 |
|---|---|
|
max_num_seqs |
最大序列长度,建议值为12~24。 |
|
max_batched_tokens |
最大批Token数量,建议值512~2048。 |
|
max_model_len |
最大模型序列长度,建议值为512~2048。 |