更新时间:2025-09-08 GMT+08:00
分享

CANN Graph

什么是CANN Graph

CANNGraph图模式是一种Capture-Replay架构的Host图,可以有效消除Host瓶颈,支持模型输入动态shape,无需分档构图,构图较快。未设置INFER_MODE环境变量时,即默认模式下,部分模型会默认使用CANNGraph图模式启动来提升性能。

CANN Graph使用限制

CANNGraph图模式目前支持deepseek系列架构的大语言模型场景,包含该系列W8A8量化模型。由于部分算子暂未适配,其他场景(如Multi-lora)暂未支持。

CANN Graph参数设置

相关参数如下表所示:

服务启动方式

配置项

配置说明

offline(离线推理)

enforce_eager

启动离线推理服务时,设置enforce_eager参数为True,即表示关闭CANNGraph图模式。小模型如Qwen2-1.5B和Qwen2-0.5B推荐开启CANNGraph图模式。详细使用样例请参见VLLM官网

enforce_eager=True

online(在线推理)

--enforce-eager

启动在线推理服务时,启动命令中存在enforce-eager参数,即表示关闭CANNGraph图模式。小模型如Qwen2-1.5B和Qwen2-0.5B推荐开启CANNGraph图模式。详细使用样例请参见步骤3.2:启动在线推理

--enforce-eager

相关文档