更新时间:2025-09-17 GMT+08:00
分享

图模式

什么是ASCEND-TURBO-GRAPH

AscendTurboGraph图模式是一种Capture-Replay架构的Host图,可以有效消除Host瓶颈,支持模型输入动态shape,无需分档构图,构图较快。未设置INFER_MODE环境变量时,即默认模式下,部分模型会默认使用ACLGraph图模式启动来提升性能。

ASCEND-TURBO-GRAPH使用限制

AscendTurboGraph图模式目前仅支持Qwen2、Qwen2.5和Qwen3系列架构的大语言模型单卡场景,包含该系列量化模型。由于部分算子暂未适配,其他场景暂未支持。

ASCEND-TURBO-GRAPH参数设置

默认情况下使用ascend-trubo-graph模式,启动插件VLLM_PLUGINS默认如下设置:

export VLLM_PLUGINS=ascend_vllm,kv_connectors

如果使用eager或者acl-graph模式,启动插件VLLM_PLUGINS需要如下设置:

export VLLM_PLUGINS=ascend
表1 执行模式设置

执行模式

启动服务时配置项

说明

eager

--enforce-eager

默认为False,并且优先级最高。

AscendTurboGraph

(推荐)

--additional-config='{"ascend_turbo_graph_config": {"enabled": true}}'

需要在additional_config中显示设置。

AclGraph

--

不设置时默认AclGraph模式,

当前版本AclGraph图模式属于实验特性,不推荐使用。推荐使用AscendTurboGraph图模式

相关文档