启动推理服务(大语言模型)
本章节主要介绍大语言模型的推理服务启动方式,包括离线推理和在线推理2种方式。
离线推理
编辑一个python脚本,脚本内容如下,运行该脚本使用ascend-vllm进行模型离线推理。
from vllm import LLM, SamplingParams def main(): prompts = [ "Hello, my name is", "The president of the United States is", "The capital of France is", "The future of AI is", ] sampling_params = SamplingParams(temperature=0.8, top_p=0.95) model_path = "/path/to/model" llm = LLM(model=model_path, tensor_parallel_size=1, max_model_len=8192) outputs = llm.generate(prompts, sampling_params) # Print the outputs. for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}") if __name__=="__main__": main()
启动在线推理服务
此处提供OpenAI服务API接口启动方式。详细启动服务与请求方式参考:https://docs.vllm.ai/en/latest/getting_started/quickstart.html。
推荐通过OpenAI服务的API接口启动推理,单机单卡和单机多卡场景下的具体操作命令如下,可以根据参数说明修改配置。
# VPC网段 # 需用户手动修改,修改方式见下方注意事项 VPC_CIDR="7.150.0.0/16" VPC_PREFIX=$(echo "$VPC_CIDR" | cut -d'/' -f1 | cut -d'.' -f1-2) POD_INET_IP=$(ifconfig | grep -oP "(?<=inet\s)$VPC_PREFIX\.\d+\.\d+" | head -n 1) POD_NETWORK_IFNAME=$(ifconfig | grep -B 1 "$POD_INET_IP" | head -n 1 | awk '{print $1}' | sed 's/://') echo "POD_INET_IP: $POD_INET_IP" echo "POD_NETWORK_IFNAME: $POD_NETWORK_IFNAME" # 指定通信网卡 export GLOO_SOCKET_IFNAME=$POD_NETWORK_IFNAME export TP_SOCKET_IFNAME=$POD_NETWORK_IFNAME export HCCL_SOCKET_IFNAME=$POD_NETWORK_IFNAME # 多机场景下配置 export RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES=1 # 开启显存优化 export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True # 配置通信算法的编排展开位置在Device侧的AI Vector Core计算单元 export HCCL_OP_EXPANSION_MODE=AIV # 指定可使用的卡,按需指定 export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3 # 指定绑核,按需指定 export CPU_AFFINITY_CONF=1 export LD_PRELOAD=/usr/local/lib/libjemalloc.so.2:${LD_PRELOAD} # 默认启用 ascend-turbo-graph模式,指定启动插件 export VLLM_PLUGINS=ascend_vllm # 如果使用 acl-graph 或者 eager 模式,指定启动插件 # export VLLM_PLUGINS=ascend # 指定vllm后端 v1 export VLLM_USE_V1=1 # 指定vllm版本 export VLLM_VERSION=0.9.0

以上为框架通用环境变量,Qwen系列模型部分性能提升参数可参考如下表格。
Qwen2、Qwen2.5、Qwen3系列的大语言模型
- Qwen Moe模型不支持表1的Qwen系列优化环境变量
- Aclgraph和eager模式,不支持配置表1的Qwen系列优化环境变量
- Qwen系列W4A16量化模型仅走AscendTurbo图模式,且不支持配置Qwen系列优化环境变量
- 如果使用 Qwen2、Qwen2.5、Qwen3 系列模型,推荐使用ascend-turbo-graph模式,也即是推理服务启动参数中的默认模式。 另外,Qwen系列模型,需要根据支持Qwen系列模型来配置环境变量。
- 如果使用Meta-Llama系列、类Llama 系列的模型,建议使用eager模式。
- 如果使用的机型是昇腾Snt9b系列,那么跳过下面Qwen Dense系列的启动环境变量,配置的环境变量如下:
# Snt9b系列机型且TP<=8,设置以下环境变量: export USE_MM_ALL_REDUCE_OP=1 export MM_ALL_REDUCE_OP_THRESHOLD=256 # 不需要设置以下环境变量 unset ENABLE_QWEN_HYPERDRIVE_OPT unset ENABLE_QWEN_MICROBATCH unset ENABLE_PHASE_AWARE_QKVO_QUANT unset DISABLE_QWEN_DP_PROJ
变量名 |
变量说明 |
---|---|
ENABLE_QWEN_HYPERDRIVE_OPT |
默认关闭; flashcomm通信优化 + 融合算子通用(TDynamicquant)优化 Qwen全系列通用,bf16场景下要配合 DISABLE_QWEN_DP_PROJ一起使用, w8a8 不受影响; |
ENABLE_QWEN_MICROBATCH |
默认关闭; micro batch优化; 需要配合ENABLE_QWEN_HYPERDRIVE_OPT一起使用, Qwen全系列通用w8a8,bf16 全局通用 |
ENABLE_PHASE_AWARE_QKVO_QUANT |
默认关闭; 运行时增加bf16权重,混合量化权重推理,会增加部分显存, Qwen全系列通用w8a8,bf16 不可用。需要配合ENABLE_QWEN_HYPERDRIVE_OPT一起使用 |
DISABLE_QWEN_DP_PROJ |
默认关闭; export ENABLE_QWEN_HYPERDRIVE_OPT=1使能时, DISABLE_QWEN_DP_PROJ 生效,用于关闭mlp down_proj的完全权重加载,Qwen bf16场景关闭,w8a8场景可开启; |
支持Qwen Dense系列模型 |
环境变量使用示例 |
---|---|
Qwen2 系列-bf16 |
export ENABLE_QWEN_HYPERDRIVE_OPT=1 export ENABLE_QWEN_MICROBATCH=1 export DISABLE_QWEN_DP_PROJ=1 |
Qwen2 系列-w8a8 |
export ENABLE_QWEN_HYPERDRIVE_OPT=1 export ENABLE_QWEN_MICROBATCH=1 export ENABLE_PHASE_AWARE_QKVO_QUANT=0 export DISABLE_QWEN_DP_PROJ=0 |
Qwen2.5 系列-bf16 |
export ENABLE_QWEN_HYPERDRIVE_OPT=1 export ENABLE_QWEN_MICROBATCH=1 export DISABLE_QWEN_DP_PROJ=1 |
Qwen2.5 系列-w8a8 |
export ENABLE_QWEN_HYPERDRIVE_OPT=1 export ENABLE_QWEN_MICROBATCH=1 export ENABLE_PHASE_AWARE_QKVO_QUANT=0 export DISABLE_QWEN_DP_PROJ=0 |
Qwen3 dense 系列-bf16 |
export ENABLE_QWEN_HYPERDRIVE_OPT=1 export ENABLE_QWEN_MICROBATCH=1 export DISABLE_QWEN_DP_PROJ=1 |
Qwen3 dense 系列-w8a8 |
export ENABLE_QWEN_HYPERDRIVE_OPT=1 export ENABLE_QWEN_MICROBATCH=1 export ENABLE_PHASE_AWARE_QKVO_QUANT=0(进32b-tp8场景设为1) export DISABLE_QWEN_DP_PROJ=0 |
source /home/ma-user/AscendCloud/AscendTurbo/set_env.bash python -m vllm.entrypoints.openai.api_server \ --model ${container_model_path} \ --max-num-seqs=256 \ --max-model-len=4096 \ --max-num-batched-tokens=4096 \ --tensor-parallel-size=1 \ --block-size=128 \ --host=${docker_ip} \ --port=8080 \ --gpu-memory-utilization=0.95 \ --trust-remote-code \ --no-enable-prefix-caching \ --additional-config='{"ascend_turbo_graph_config": {"enabled": true}, "ascend_scheduler_config": {"enabled": true}}'
- --model ${container_model_path}:容器内模型地址上对应权重,模型格式是HuggingFace的目录格式。即上传的HuggingFace权重文件存放目录。如果使用了量化功能,则使用量化章节转换后的权重。如果使用的是训练后模型转换为HuggingFace格式的地址,还需要有Tokenizer原始文件。
- --quantization, -q:用于量化权重的方法,来自于模型配置文件中的 quantization_config 属性。如果上面的model是量化模型,那么该值是必须的。
- --max-num-seqs:最大同时处理的请求数,超过后在等待池等候处理。
- --max-model-len:推理时最大输入+最大输出tokens数量,输入超过该数量会直接返回。max-model-len的值必须小于config.json文件中的"seq_length"的值,否则推理预测会报错。config.json存在模型对应的路径下,例如:${container_model_path}/chatglm3-6b/config.json。不同模型推理支持的max-model-len长度不同,具体差异请参见表1。
- --max-num-batched-tokens:prefill阶段,最多会使用多少token,必须大于或等于--max-model-len,推荐使用4096或8192。
- --dtype:模型推理的数据类型。支持FP16和BF16数据类型推理。float16表示FP16,bfloat16表示BF16。如果不指定,则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重,建议不指定dtype,使用开源权重默认的dtype。
- --tensor-parallel-size:模型并行数。模型并行与流水线并行的乘积取值需要和启动的NPU卡数保持一致,可以参考表1。此处举例为1,表示使用单卡启动服务。
- --pipeline-parallel-size:流水线并行数。模型并行与流水线并行的乘积取值需要和启动的NPU卡数保持一致,默认为1。
- --block-size:kv-cache的block大小,推荐设置为128。
- --host=${docker_ip}:服务部署的IP,${docker_ip}替换为宿主机实际的IP地址,默认为None,举例:参数可以设置为0.0.0.0。
- --port:服务部署的端口。
- --gpu-memory-utilization:NPU使用的显存比例,复用原vLLM的入参名称,默认为0.9。
- --trust-remote-code:是否信任远程代码。
- --distributed-executor-backend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。
- --disable-async-output-proc:关闭异步后处理特性,关闭后性能会下降。
- --speculative-config:配置投机参数;配置参数为JSON字符串,默认是None。
- --no-enable-prefix-caching:关闭prefix-caching,需要打开请参照Prefix Caching
- --enforce-eager:未设置INFER_MODE环境变量时,部分模型会默认使用AclGraph图模式启动来提升性能,设置该参数后将关闭图模式。推荐Meta-Llama系列等非Qwen系列开启。
- --additional-config: {"ascend_turbo_graph_config": {"enabled": true}} 为开启ascend_turbo图模式。开启下Qwen系列有性能提升,不开启则默认走acl_graph。当前acl_graph仅支持bf16,不支持compress_tensors, smoothquant, awq。
多机部署启动推理服务
当单机显存无法放下模型权重时,可选用多机方式部署;多机部署方式,需要机器在同一个集群,NPU卡之间IP能够ping通方可,具体步骤如下:
- 查看卡IP,在其中一个机器上执行。
for i in $(seq 0 7);do hccn_tool -i $i -ip -g;done
- 检查卡之间的网络是否通。
# 在另一个机器上执行,29.81.3.172是上一步输出的ipaddr的值 hccn_tool -i 0 -ping -g address 29.81.3.172
- 启动Ray集群。
# 指定通信网卡,使用ifconfig查看,找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export TP_SOCKET_IFNAME=enp67s0f5 export RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES=1 # 指定可使用的卡 export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 # 将其中一个机器设为头节点 ray start --head --num-gpus=8 # 在其他机器执行 ray start --address='10.170.22.18:6379' --num-gpus=8
- --num-gpus:要跟ASCEND_RT_VISIBLE_DEVICES指定的可用卡数一致。
- --address:头节点IP+端口号,头节点创建成功后,会有打印。
- 环境变量每个节点都要设置。
- 更新环境变量需要重启Ray集群。
- 选择其中一个节点,添加指定分布式后端参数【--distributed-executor-backend=ray】,其他参数与正常启服务一致即可。具体参考本文单机场景下OpenAI服务的API接口启动在线推理服务方式。
推理请求测试
使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见启动在线推理服务。
通过OpenAI服务API接口启动服务使用以下推理测试命令。${docker_ip}替换为实际宿主机的IP地址。如果启动服务未添加 served-model-name 参数,${container_model_path} 的值请与 model 参数的值保持一致;如果使用了 served-model-name 参数,${container_model_path} 请替换为 served-model-name参数 。
curl http://${docker_ip}:8080/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "${container_model_path}", "prompt": "hello", "max_tokens": 32, "temperature": 0 }'
curl -X POST http://${docker_ip}:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "${container_model_path}", "messages": [ { "role": "user", "content": "hello" } ], "max_tokens": 32, "temperature": 0 }'
服务的API与vLLM官网相同,此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/api/vllm/vllm.sampling_params.html。
OpenAI服务相关请求参数说明请参照表2。
参数 |
是否必选 |
默认值 |
参数类型 |
描述 |
---|---|---|---|---|
model |
是 |
无 |
Str |
通过OpenAI服务API接口启动服务时,推理请求必须填写此参数。取值必须和启动推理服务时的model ${container_model_path} 参数保持一致。 通过vLLM服务API接口启动服务时,推理请求不涉及此参数。 |
prompt |
是 |
- |
Str |
请求输入的问题。 |
max_tokens |
否 |
16 |
Int |
每个输出序列要生成的最大tokens数量。 |
top_k |
否 |
-1 |
Int |
控制要考虑的前几个tokens数量的整数。设置为-1表示考虑所有tokens。 适当降低该值可以减少采样时间。 |
top_p |
否 |
1.0 |
Float |
控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0,1] 范围内。设置为1表示考虑所有tokens。 |
temperature |
否 |
1.0 |
Float |
控制采样的随机性的浮点数。较低的值使模型更加确定性,较高的值使模型更加随机。0表示贪婪采样。 |
stop |
否 |
None |
None/Str/List |
用于停止生成的字符串列表。返回的输出将不包含停止字符串。 例如:["你","好"],生成文本时遇到"你"或者"好"将停止文本生成。 |
stream |
否 |
False |
Bool |
是否开启流式推理。默认为False,表示不开启流式推理。 |
n |
否 |
1 |
Int |
返回多条正常结果。 约束与限制: 不使用beam_search场景下,n取值建议为1≤n≤10。如果n>1时,必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。 使用beam_search场景下,n取值建议为1<n≤10。如果n=1,会导致推理请求失败。
说明:
n建议取值不超过10,n值过大会导致性能劣化,显存不足时,推理请求会失败。 |
use_beam_search |
否 |
False |
Bool |
是否使用beam_search替换采样。 约束与限制:使用该参数时,如下参数需按要求设置: n>1 top_p = 1.0 top_k = -1 temperature = 0.0 |
presence_penalty |
否 |
0.0 |
Float |
presence_penalty表示会根据当前生成的文本中新出现的词语进行奖惩。取值范围[-2.0,2.0]。 |
frequency_penalty |
否 |
0.0 |
Float |
frequency_penalty会根据当前生成的文本中各个词语的出现频率进行奖惩。取值范围[-2.0,2.0]。 |
length_penalty |
否 |
1.0 |
Float |
length_penalty表示在beam search过程中,对于较长的序列,模型会给予较大的惩罚。 如果要使用length_penalty,必须添加如下三个参数,并且需将use_beam_search参数设置为true,best_of参数设置大于1,top_k固定为-1。 "top_k": -1 "use_beam_search":true "best_of":2 |
ignore_eos |
否 |
False |
Bool |
ignore_eos表示是否忽略EOS并且继续生成token。 |
guided_json |
否 |
None |
Union[str,dict,BaseModel] |
使用openai启动服务,如果需要使用JSON Schema时要配置guided_json参数,详细配置参照Structured Outputs。 |
bge-reranker-v2-m3 的使用示例如下:
curl -X POST http://${docker_ip}:8080/v1/rerank \ -H "Content-Type: application/json" \ -d '{ "model": "/model/bge-reranker-v2-m3", "query": "What is the capital of France?", "documents": [ "The capital of France is Paris", "Reranking is fun!", "vLLM is an open-source framework for fast AI serving" ] }' # model替换为实际的地址
bge-base-en-v1.5/bge-base-zh-v1.5/bge-large-en-v1.5/bge-large-zh-v1.5/bge-m3等embedding模型,使用OpenAI启动服务(仅支持V0启动),embedding接口使用示例如下:
curl -X POST http://${docker_ip}:8080/v1/embeddings \ -H "Content-Type: application/json" \ -d '{ "model": "/model/bge-base-en-v1.5", "input":"I love shanghai" }' # model替换为实际的地址