开始使用

调用大语言模型

通过OpenAI服务API接口启动服务使用以下推理测试命令。

${docker_ip}替换为实际宿主机的IP地址。
${container_model_path} 的值和表1模型名称一致；
${port}的值为服务部署的端口号

OpenAI Completions API with vLLM

curl -X POST http://${docker_ip}:${port}/v1/completions \
-H "Content-Type: application/json" \
-d '{        
      "model": "${container_model_path}",      
      "prompt": "hello",
      "max_tokens": 32,
      "temperature": 0   
}'

OpenAI Chat Completions API with vLLM

curl -X POST http://${docker_ip}:${port}/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
    "model": "${container_model_path}",
    "messages": [
        {
            "role": "user",
            "content": "hello"
        }
    ],
    "max_tokens": 32,
    "temperature": 0
}'

服务的API与vLLM官网相同，此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/api/vllm/vllm.sampling_params.html

OpenAI服务相关请求参数说明请参照表1。

表1 OpenAI服务请求参数说明
参数	是否必选	默认值	参数类型	描述
model	是	无	Str	通过OpenAI服务API接口启动服务时，推理请求必须填写此参数。取值必须和启动推理服务时的model ${container_model_path} 参数保持一致。通过vLLM服务API接口启动服务时，推理请求不涉及此参数。
prompt	是	-	Str	请求输入的问题。
max_tokens	否	16	Int	每个输出序列要生成的最大tokens数量。
top_k	否	-1	Int	控制要考虑的前几个tokens数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。
top_p	否	1.0	Float	控制要考虑的前几个tokens的累积概率的浮点数。必须在(0, 1]范围内。设置为1表示考虑所有tokens。
temperature	否	1.0	Float	控制采样的随机性的浮点数。较低的值使模型更加确定性，较高的值使模型更加随机。0表示贪婪采样。
stop	否	None	None/Str/List	用于停止生成的字符串列表。返回的输出将不包含停止字符串。例如：["你", "好"]，生成文本时遇到"你"或者"好"将停止文本生成。
stream	否	False	Bool	是否开启流式推理。默认为False，表示不开启流式推理。
n	否	1	Int	返回多条正常结果。约束与限制：不使用beam_search场景下，n取值建议为1≤n≤10。如果n>1时，必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。使用beam_search场景下，n取值建议为1<n≤10。如果n=1，会导致推理请求失败。说明： n建议取值不超过10，n值过大会导致性能劣化，显存不足时，推理请求会失败。
use_beam_search	否	False	Bool	是否使用beam_search替换采样。约束与限制：使用该参数时，如下参数需按要求设置： n>1 top_p = 1.0 top_k = -1 temperature = 0.0 警告：使用 beam_search 时，需显式设置 max_tokens，避免请求无法按预期停止。
presence_penalty	否	0.0	Float	presence_penalty表示会根据当前生成的文本中新出现的词语进行奖惩。取值范围[-2.0，2.0]。
frequency_penalty	否	0.0	Float	frequency_penalty会根据当前生成的文本中各个词语的出现频率进行奖惩。取值范围[-2.0，2.0]。
length_penalty	否	1.0	Float	length_penalty表示在beam search过程中，对于较长的序列，模型会给予较大的惩罚。如果要使用length_penalty，必须添加如下三个参数，并且需将use_beam_search参数设置为true，best_of参数设置大于1，top_k固定为-1。 "top_k": -1 "use_beam_search":true "best_of":2
ignore_eos	否	False	Bool	ignore_eos表示是否忽略EOS并且继续生成token。
guided_json	否	None	Union[str，dict，BaseModel]	使用openai启动服务，如果需要使用JSON Schema时要配置guided_json参数

调用Embedding&Rerank

通过OpenAI服务API接口启动服务使用以下推理测试命令。

${docker_ip}替换为实际宿主机的IP地址。
${container_model_path} 的值和表1模型名称一致；
${port}的值为服务部署的端口号

rerank接口示例如下:

curl -X POST http://${docker_ip}:${port}/v1/rerank \
    -H "Content-Type: application/json" \
    -d '{
        "model": "${container_model_path}",
        "query": "What is the capital of France?",
        "documents": [
            "The capital of France is Paris",
            "Reranking is fun!",
            "vLLM is an open-source framework for fast AI serving"
        ]
    }'

表2 表1 Rerank服务请求参数说明
参数	是否必选	默认值	参数类型	描述
model	是	无	Str	${container_model_path} 的值和表1模型名称一致；
query	是	无	Str	用户查询文本
documents	是	无	Str	待排序文档列表（通常为Embedding召回的Top-K结果）

使用OpenAI启动服务（仅支持V0启动），embeddings接口示例如下:

curl -X POST http://${docker_ip}:${port}/v1/embeddings \
    -H "Content-Type: application/json" \
    -d '{
        "model": "${container_model_path}",
        "input":"I love shanghai"
    }'

表3 表2 Embedding服务请求参数说明
参数	是否必选	默认值	参数类型	描述
model	是	无	Str	${container_model_path} 的值和表1模型名称一致；
input	是	无	Str	支持字符串或字符串列表

调用多模型模型

通过OpenAI服务API接口启动服务使用以下推理测试命令。

${docker_ip}替换为实际宿主机的IP地址；
${container_model_path} 的值和表1模型名称一致；
${port}值为服务部署的端口号;
${url}值为图片地址（如https://example.com/cat.jpg）

curl http://${docker_ip}:${port}/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "${container_model_path}",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": [
            {"type": "image_url", "image_url": {"url": "${url}"}},
            {"type": "text", "text": "图片中内容"}
        ]}
    ],
    "max_tokens": 512,
    "temperature": 0.7
}'

推理服务性能评测

魔坊（ModelArts）模型训推平台6.5.908官方版本

可参考大语言模型推理性能测试

Vllm-Ascend开源版本

evalscope perf \
  --parallel 1 2 4 8 16 32 64 128 \
  --number 1 2 4 8 16 32 64 128 \
  --model qwen3.6 \
  --url http://0.0.0.0:8010/v1/chat/completions \
  --api openai \
  --dataset random \
  --max-tokens 1024 \
  --min-tokens 1024 \
  --prefix-length 0 \
  --min-prompt-length 131144 \
  --max-prompt-length 131144 \
  --tokenizer-path 模型权重路径 \
  --extra-args '{"ignore_eos": true}'

可参考开源模型推理性能压测

父主题： 实施步骤

上一篇：一键部署

下一篇：附录