图模式
什么是ASCEND-TURBO-GRAPH
AscendTurboGraph图模式是一种Capture-Replay架构的Host图,可以有效消除Host瓶颈,支持模型输入动态shape,无需分档构图,构图较快。未设置INFER_MODE环境变量时,即默认模式下,部分模型会默认使用ACLGraph图模式启动来提升性能。
ASCEND-TURBO-GRAPH使用限制
AscendTurboGraph图模式目前仅支持Qwen2、Qwen2.5和Qwen3系列架构的大语言模型单卡场景,包含该系列量化模型。由于部分算子暂未适配,其他场景暂未支持。
ASCEND-TURBO-GRAPH参数设置
默认情况下使用ascend-trubo-graph模式,启动插件VLLM_PLUGINS默认如下设置:
export VLLM_PLUGINS=ascend_vllm,kv_connectors
如果使用eager或者acl-graph模式,启动插件VLLM_PLUGINS需要如下设置:
export VLLM_PLUGINS=ascend
执行模式 |
启动服务时配置项 |
说明 |
---|---|---|
eager |
--enforce-eager |
默认为False,并且优先级最高。 |
AscendTurboGraph (推荐) |
--additional-config='{"ascend_turbo_graph_config": {"enabled": true}}' |
需要在additional_config中显示设置。 |
AclGraph |
-- |
不设置时默认AclGraph模式, 当前版本AclGraph图模式属于实验特性,不推荐使用。推荐使用AscendTurboGraph图模式。 |