自定义部署服务
概念解释
- Ascend-vLLM框架:
Ascend-vLLM是华为云针对NPU优化的大模型推理框架,继承了vLLM的优点,并通过特定优化实现了更高的性能和易用性。它使得在NPU卡上运行大模型变得更加高效和便捷,为用户带来了极大的便利和性能提升。Ascend-vLLM可广泛应用于各种大模型推理任务,特别是在需要高性能和高效率的场景中,如自然语言处理、多模态理解等。
- PD分离
大模型推理是自回归的过程,有以下两阶段:
PD分离部署场景下,大模型推理的Prefill阶段(全量推理)和Decode阶段(增量推理)分别部署在不同的实例中同时进行推理,用于提高推理效率。
- 混部
相对于PD分离来说,混部是将Prefill和Decode阶段都放在一个实例中部署执行。
模板参数
不同的任务模板会有不同的参数。参数类型有预置模板参数和自定义参数,如果是预置参数,不支持删除;如果是自定义参数,支持删除,自定义参数会以环境变量的方式传到业务容器中。
| 参数名 | 参数解释 |
|---|---|
| model_name | 模型名称,支持DeepSeek-V3、DeepSeek-R1 |
| sfs_turbo_id | 挂载的SFS Turbo文件系统ID,会挂载到每个轻量算力节点上。如果该文件系统已经提前挂载到轻量算力节点上,此处仅做关联。如果该文件系统未挂载到Li轻量算力节点此处会自动关联。 SFS Turbo文件系统ID,推荐规格为1000 MB/s/TiB及以上,容量1.2T及以上。 如果不配置sfs_turbo_id,则默认使用云硬盘EVS,需要预留至少0.8T空间。 |
| mount_path | SFS Turbo对应轻量算力节点中的挂载路径,默认为/mnt/aiserver/model,用于在节点内存储模型。 |
| deploy_type | 表示部署类型。
|
| p_num | PD分离部署模式下有此参数,填写为Prefill实例数量,当前仅支持多P1D场景。 |
| d_num | PD分离部署模式下有此参数,填写为Decode实例数量,当前仅支持多P1D场景。 |
| deploy_openwebui | 表示是否部署OpenWebUI,取值支持true、false。默认为true,表示部署OpenWebUI。 |
支持添加自定义参数,或者通过JSON编辑自定义参数。预置参数和自定义参数加起来不能超过20条。
| 参数名 | 参数解释 |
|---|---|
| max_num_seqs | 最大序列长度,建议值为12~24。 |
| max_batched_tokens | 最大批Token数量,建议值512~2048。 |
| max_model_len | 最大模型序列长度,建议值为512~2048。 |