图模式
什么是ASCEND-TURBO-GRAPH
AscendTurboGraph图模式是一种Capture-Replay架构的Host图,可以有效消除Host瓶颈,支持模型输入动态shape,无需分档构图,构图较快。未设置INFER_MODE环境变量时,即默认模式下,部分模型会默认使用ACLGraph图模式启动来提升性能。
ASCEND-TURBO-GRAPH使用限制
AscendTurboGraph图模式目前仅支持Qwen2、Qwen2.5和Qwen3系列架构的大语言模型单卡场景,包含该系列量化模型。由于部分算子暂未适配,其他场景暂未支持。
ASCEND-TURBO-GRAPH参数设置
默认情况下使用ascend-turbo-graph模式,启动插件VLLM_PLUGINS默认如下设置:
export VLLM_PLUGINS=ascend_vllm,kv_connectors 如果使用eager或者acl-graph模式,启动插件VLLM_PLUGINS需要如下设置:
export VLLM_PLUGINS=ascend
执行模式 | 启动服务时配置项 | 说明 |
|---|---|---|
eager | --enforce-eager | 默认为False,并且优先级最高。 |
AscendTurboGraph (推荐) | --additional-config='{"ascend_turbo_graph_config": {"enabled": true}}' | 需要在additional_config中显式设置。 |
AclGraph | NA | 不设置时默认AclGraph模式。 当前版本AclGraph图模式属于实验特性,不推荐使用。推荐使用AscendTurboGraph图模式。 |

