文档首页/
AI开发平台ModelArts/
最佳实践/
DeepSeek&Qwen3基于Lite Server&Cluster推理/
DeepSeek&Qwen3模型基于Lite Cluster适配NPU的PD分离推理解决方案/
特性补充说明/
PD分离部署下图编译缓存使用操作/
Qwen开启图编译缓存
更新时间:2025-11-04 GMT+08:00
Qwen开启图编译缓存
启动图编译缓存功能
- 参考表2启动图编译缓存功能,分别指定Prefill和Decode对应的图编译缓存路径。
--prefill-extra-env-vars='VLLM_CACHE_ROOT=/mnt/deepseek/torch_cache_prefill' --decode-extra-env-vars='VLLM_CACHE_ROOT=/mnt/deepseek/torch_cache_decode'
- 图编译缓存路径需要为挂载路径的子目录。
- 部署推理服务,如果步骤1指定路径存在图编译缓存,则会正常加载缓存;如果指定路径为空,则会生成图编译缓存。
- (可选)可以将生成好的图编译缓存文件在制作镜像时复制进镜像,然后通过环境变量指定对应路径。如果版本、启动参数等发生变化则需要重新制作镜像,因此易用性不足,不推荐。
父主题: PD分离部署下图编译缓存使用操作