文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型推理/ LLM大语言模型推理历史版本文档/ 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.5.902）/ 启动推理服务/ 启动推理服务（大语言模型）

更新时间：2025-07-29 GMT+08:00

查看PDF

启动推理服务（大语言模型）

本章节主要介绍大语言模型的推理服务启动方式，包括离线推理和在线推理2种方式。

离线推理

编辑一个python脚本，脚本内容如下，运行该脚本使用ascend-vllm进行模型离线推理。

from vllm import LLM, SamplingParams

def main():
    prompts = [
        "Hello, my name is",
        "The president of the United States is",
        "The capital of France is",
        "The future of AI is",
    ]
    sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

    model_path = "/path/to/model"
    llm = LLM(model=model_path, tensor_parallel_size=1, max_model_len=8192)

    outputs = llm.generate(prompts, sampling_params)

    # Print the outputs.
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

if __name__=="__main__":
    main()

启动在线推理服务

此处提供OpenAI服务API接口启动方式。详细启动服务与请求方式参考：https://docs.vllm.ai/en/latest/getting_started/quickstart.html。

推荐通过OpenAI服务的API接口启动推理，单机单卡和单机多卡场景下的具体操作命令如下，可以根据参数说明修改配置。

python -m vllm.entrypoints.openai.api_server --model ${container_model_path} \
--max-num-seqs=256 \
--max-model-len=4096 \
--max-num-batched-tokens=4096 \
--tensor-parallel-size=1 \
--block-size=128 \
--host=${docker_ip} \
--port=8080 \
--gpu-memory-utilization=0.9 \
--num-scheduler-steps=8 \
--trust-remote-code \
--enforce-eager

推理服务基础参数说明如下：

--model ${container_model_path}：模型地址，模型格式是HuggingFace的目录格式。即上传的HuggingFace权重文件存放目录。如果使用的是训练后模型转换为HuggingFace格式的地址，还需要有Tokenizer原始文件。
--max-num-seqs：最大同时处理的请求数，超过后在等待池等候处理。
--max-model-len：推理时最大输入+最大输出tokens数量，输入超过该数量会直接返回。max-model-len的值必须小于config.json文件中的"seq_length"的值，否则推理预测会报错。config.json存在模型对应的路径下，例如：${container_work_dir}/chatglm3-6b/config.json。不同模型推理支持的max-model-len长度不同，具体差异请参见表1。
--max-num-batched-tokens：prefill阶段，最多会使用多少token，必须大于或等于--max-model-len，推荐使用4096或8192。
--dtype：模型推理的数据类型。支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。如果不指定，则根据输入数据自动匹配数据类型。使用不同的dtype会影响模型精度。如果使用开源权重，建议不指定dtype，使用开源权重默认的dtype。
--tensor-parallel-size：模型并行数。模型并行与流水线并行的乘积取值需要和启动的NPU卡数保持一致，可以参考表1。此处举例为1，表示使用单卡启动服务。
--pipeline-parallel-size：流水线并行数。模型并行与流水线并行的乘积取值需要和启动的NPU卡数保持一致，默认为1。
--block-size：kv-cache的block大小，推荐设置为128。
--num-scheduler-steps: 默认为1，推荐设置为8。用于multi-step调度。每次调度生成多个token，可以降低时延。开启投机推理后无需配置该参数，否则会导致投机推理启动报错。
--multi-step-stream-outputs: 设置false后，multi-step会关闭流式输出提升性能，一次将返回num-scheduler-steps个token。
--host=${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址，默认为None，举例：参数可以设置为0.0.0.0。
--port：服务部署的端口。
--gpu-memory-utilization：NPU使用的显存比例，复用原vLLM的入参名称，默认为0.9。
--trust-remote-code：是否相信远程代码。
--distributed-executor-backend：多卡推理启动后端，可选值为"ray"或者"mp"，其中"ray"表示使用ray进行启动多卡推理，"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。
--enforce-eager：未设置INFER_MODE环境变量时，部分模型会默认使用CANNGraph图模式启动来提升性能，设置该参数后将关闭图模式。
--disable-async-output-proc：关闭异步后处理特性，关闭后性能会下降。

多机部署启动推理服务（可选）

当单机显存无法放下模型权重时，可选用多机方式部署；多机部署方式，需要机器在同一个集群，NPU卡之间IP能够ping通方可，具体步骤如下：

查看卡IP，在其中一个机器上执行。

for i in $(seq 0 7);do hccn_tool -i $i -ip -g;done

检查卡之间的网络是否通。

# 在另一个机器上执行，29.81.3.172是上一步输出的ipaddr的值
hccn_tool -i 0 -ping -g address 29.81.3.172

启动Ray集群。

# 指定通信网卡，使用ifconfig查看，找到和主机IP一致的网卡名
export GLOO_SOCKET_IFNAME=enp67s0f5
export TP_SOCKET_IFNAME=enp67s0f5
export RAY_EXPERIMENTAL_NOSET_ASCEND_RT_VISIBLE_DEVICES=1
# 指定可使用的卡
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
# 将其中一个机器设为头节点
ray start --head --num-gpus=8
# 在其他机器执行
ray start --address='10.170.22.18:6379' --num-gpus=8

--num-gpus：要跟ASCEND_RT_VISIBLE_DEVICES指定的可用卡数一致。
--address：头节点IP+端口号，头节点创建成功后，会有打印。

环境变量每个节点都要设置。
更新环境变量需要重启Ray集群。

选择其中一个节点，添加指定分布式后端参数【--distributed-executor-backend=ray】，其他参数与正常启服务一致即可。具体参考本文单机场景下OpenAI服务的API接口启动在线推理服务方式。

推理请求测试

使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见启动在线推理服务。

通过OpenAI服务API接口启动服务使用以下推理测试命令。${docker_ip}替换为实际宿主机的IP地址。如果启动服务未添加served-model-name参数，${container_model_path}的值请与model参数的值保持一致，如果使用了served-model-name参数，${container_model_path}请替换为实际使用的模型名称。

OpenAI Completions API with vLLM

curl http://${docker_ip}:8080/v1/completions \
-H "Content-Type: application/json" \
-d '{        
      "model": "${container_model_path}",      
      "prompt": "hello",
      "max_tokens": 7,
      "temperature": 0   
}'

OpenAI Chat Completions API with vLLM

curl -X POST http://${docker_ip}:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
    "model": "${container_model_path}",
    "messages": [
        {
            "role": "user",
            "content": "hello"
        }
    ],
    "max_tokens": 100,
    "top_k": -1,
    "top_p": 1,
    "temperature": 0,
    "ignore_eos": false,
    "stream": false
}'

服务的API与vLLM官网相同，此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/api/vllm/vllm.sampling_params.html。

OpenAI服务相关请求参数说明请参照表1。

表1 OpenAI服务请求参数说明
参数	是否必选	默认值	参数类型	描述
model	是	无	Str	通过OpenAI服务API接口启动服务时，推理请求必须填写此参数。取值必须和启动推理服务时的model ${container_model_path}参数保持一致。通过vLLM服务API接口启动服务时，推理请求不涉及此参数。
prompt	是	-	Str	请求输入的问题。
max_tokens	否	16	Int	每个输出序列要生成的最大tokens数量。
top_k	否	-1	Int	控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。
top_p	否	1.0	Float	控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0，1] 范围内。设置为1表示考虑所有tokens。
temperature	否	1.0	Float	控制采样的随机性的浮点数。较低的值使模型更加确定性，较高的值使模型更加随机。0表示贪婪采样。
stop	否	None	None/Str/List	用于停止生成的字符串列表。返回的输出将不包含停止字符串。例如：["你"，"好"]，生成文本时遇到"你"或者"好"将停止文本生成。
stream	否	False	Bool	是否开启流式推理。默认为False，表示不开启流式推理。
n	否	1	Int	返回多条正常结果。约束与限制：不使用beam_search场景下，n取值建议为1≤n≤10。如果n>1时，必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。使用beam_search场景下，n取值建议为1<n≤10。如果n=1，会导致推理请求失败。说明： n建议取值不超过10，n值过大会导致性能劣化，显存不足时，推理请求会失败。
use_beam_search	否	False	Bool	是否使用beam_search替换采样。约束与限制：使用该参数时，如下参数需按要求设置： n>1 top_p = 1.0 top_k = -1 temperature = 0.0
presence_penalty	否	0.0	Float	presence_penalty表示会根据当前生成的文本中新出现的词语进行奖惩。取值范围[-2.0，2.0]。
frequency_penalty	否	0.0	Float	frequency_penalty会根据当前生成的文本中各个词语的出现频率进行奖惩。取值范围[-2.0，2.0]。
length_penalty	否	1.0	Float	length_penalty表示在beam search过程中，对于较长的序列，模型会给予较大的惩罚。如果要使用length_penalty，必须添加如下三个参数，并且需将use_beam_search参数设置为true，best_of参数设置大于1，top_k固定为-1。 "top_k": -1 "use_beam_search":true "best_of":2
ignore_eos	否	False	Bool	ignore_eos表示是否忽略EOS并且继续生成token。
guided_json	否	None	Union[str，dict，BaseModel]	使用OpenAI启动服务，如果需要使用JSON Schema时要配置guided_json参数。

父主题： 启动推理服务

上一篇：启动推理服务

下一篇：启动推理服务（多模态模型）

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问