CANN Graph
什么是CANN Graph
CANNGraph图模式是一种Capture-Replay架构的Host图,可以有效消除Host瓶颈,支持模型输入动态shape,无需分档构图,构图较快。未设置INFER_MODE环境变量时,即默认模式下,部分模型会默认使用CANNGraph图模式启动来提升性能。
CANN Graph使用限制
CANNGraph图模式目前支持deepseek系列架构的大语言模型场景,包含该系列W8A8量化模型。由于部分算子暂未适配,其他场景(如Multi-lora)暂未支持。
CANN Graph参数设置
相关参数如下表所示:
服务启动方式 |
配置项 |
配置说明 |
---|---|---|
offline(离线推理) |
enforce_eager |
启动离线推理服务时,设置enforce_eager参数为True,即表示关闭CANNGraph图模式。小模型如Qwen2-1.5B和Qwen2-0.5B推荐开启CANNGraph图模式。详细使用样例请参见VLLM官网。 enforce_eager=True |
online(在线推理) |
--enforce-eager |
启动在线推理服务时,启动命令中存在enforce-eager参数,即表示关闭CANNGraph图模式。小模型如Qwen2-1.5B和Qwen2-0.5B推荐开启CANNGraph图模式。详细使用样例请参见步骤3.2:启动在线推理。 --enforce-eager |