更新时间:2026-05-23 GMT+08:00
分享

图模式

什么是AscendTurboGraph

AscendTurboGraph图模式是一种Capture-Replay架构的Host图,可以有效消除Host瓶颈,支持模型输入动态shape,无需分档构图,构图较快。未设置INFER_MODE环境变量时,即默认模式下,部分模型会默认使用ACLGraph图模式启动来提升性能。

AscendTurboGraph使用限制

AscendTurboGraph图模式目前仅支持Qwen2、Qwen2.5和Qwen3系列架构的大语言模型单卡场景,包含该系列量化模型。由于部分算子暂未适配,其他场景暂未支持。

AscendTurboGraph参数设置

推荐使用AscendTurboGraph图模式,需要在启动推理服务前配置2个环境变量VLLM_PLUGINS和USE_ACLGRAPH:

默认情况下使用AscendTurboGraph模式,启动插件VLLM_PLUGINS默认如下设置:

export VLLM_PLUGINS=ascend_vllm,kv_connectors
# 是否是使用 ACLGRAPH模式,如果启用ACLGRAPH模式,值为1;否则为0
export USE_ACLGRAPH=0

如果使用eager或者acl-graph模式,启动插件VLLM_PLUGINS需要如下设置:

export VLLM_PLUGINS=ascend
表1 执行模式设置

执行模式

启动服务时配置项

说明

eager

--enforce-eager

默认为False,并且优先级最高。

AscendTurboGraph

(推荐)

--additional-config='{"ascend_turbo_graph_config": {"enabled": true}}'

需要在additional_config中显式设置。

AclGraph

NA

不设置时默认AclGraph模式。

当前版本AclGraph图模式属于实验特性,不推荐使用。推荐使用AscendTurboGraph图模式

相关文档