开始使用
调用大语言模型
- 通过OpenAI服务API接口启动服务使用以下推理测试命令。
- ${docker_ip}替换为实际宿主机的IP地址。
- ${container_model_path} 的值和表1模型名称一致;
- ${port}的值为服务部署的端口号
OpenAI Completions API with vLLM
curl -X POST http://${docker_ip}:${port}/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "${container_model_path}", "prompt": "hello", "max_tokens": 32, "temperature": 0 }'OpenAI Chat Completions API with vLLM
curl -X POST http://${docker_ip}:${port}/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "${container_model_path}", "messages": [ { "role": "user", "content": "hello" } ], "max_tokens": 32, "temperature": 0 }'服务的API与vLLM官网相同,此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/api/vllm/vllm.sampling_params.html
OpenAI服务相关请求参数说明请参照表1。
表1 OpenAI服务请求参数说明 参数
是否必选
默认值
参数类型
描述
model
是
无
Str
通过OpenAI服务API接口启动服务时,推理请求必须填写此参数。取值必须和启动推理服务时的model ${container_model_path} 参数保持一致。
通过vLLM服务API接口启动服务时,推理请求不涉及此参数。
prompt
是
-
Str
请求输入的问题。
max_tokens
否
16
Int
每个输出序列要生成的最大tokens数量。
top_k
否
-1
Int
控制要考虑的前几个tokens数量的整数。设置为-1表示考虑所有tokens。
适当降低该值可以减少采样时间。
top_p
否
1.0
Float
控制要考虑的前几个tokens的累积概率的浮点数。必须在(0, 1]范围内。设置为1表示考虑所有tokens。
temperature
否
1.0
Float
控制采样的随机性的浮点数。较低的值使模型更加确定性,较高的值使模型更加随机。0表示贪婪采样。
stop
否
None
None/Str/List
用于停止生成的字符串列表。返回的输出将不包含停止字符串。
例如:["你", "好"],生成文本时遇到"你"或者"好"将停止文本生成。
stream
否
False
Bool
是否开启流式推理。默认为False,表示不开启流式推理。
n
否
1
Int
返回多条正常结果。
约束与限制:
不使用beam_search场景下,n取值建议为1≤n≤10。如果n>1时,必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。
使用beam_search场景下,n取值建议为1<n≤10。如果n=1,会导致推理请求失败。
说明:n建议取值不超过10,n值过大会导致性能劣化,显存不足时,推理请求会失败。
use_beam_search
否
False
Bool
是否使用beam_search替换采样。
约束与限制:使用该参数时,如下参数需按要求设置:
n>1
top_p = 1.0
top_k = -1
temperature = 0.0
警告:使用 beam_search 时,需显式设置 max_tokens,避免请求无法按预期停止。
presence_penalty
否
0.0
Float
presence_penalty表示会根据当前生成的文本中新出现的词语进行奖惩。取值范围[-2.0,2.0]。
frequency_penalty
否
0.0
Float
frequency_penalty会根据当前生成的文本中各个词语的出现频率进行奖惩。取值范围[-2.0,2.0]。
length_penalty
否
1.0
Float
length_penalty表示在beam search过程中,对于较长的序列,模型会给予较大的惩罚。
如果要使用length_penalty,必须添加如下三个参数,并且需将use_beam_search参数设置为true,best_of参数设置大于1,top_k固定为-1。
"top_k": -1
"use_beam_search":true
"best_of":2
ignore_eos
否
False
Bool
ignore_eos表示是否忽略EOS并且继续生成token。
guided_json
否
None
Union[str,dict,BaseModel]
使用openai启动服务,如果需要使用JSON Schema时要配置guided_json参数
调用Embedding&Rerank
通过OpenAI服务API接口启动服务使用以下推理测试命令。
- ${docker_ip}替换为实际宿主机的IP地址。
- ${container_model_path} 的值和表1模型名称一致;
- ${port}的值为服务部署的端口号
rerank接口示例如下:
curl -X POST http://${docker_ip}:${port}/v1/rerank \
-H "Content-Type: application/json" \
-d '{
"model": "${container_model_path}",
"query": "What is the capital of France?",
"documents": [
"The capital of France is Paris",
"Reranking is fun!",
"vLLM is an open-source framework for fast AI serving"
]
}' | 参数 | 是否必选 | 默认值 | 参数类型 | 描述 |
|---|---|---|---|---|
| model | 是 | 无 | Str | ${container_model_path} 的值和表1模型名称一致; |
| query | 是 | 无 | Str | 用户查询文本 |
| documents | 是 | 无 | Str | 待排序文档列表(通常为Embedding召回的Top-K结果) |
使用OpenAI启动服务(仅支持V0启动),embeddings接口示例如下:
curl -X POST http://${docker_ip}:${port}/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"model": "${container_model_path}",
"input":"I love shanghai"
}' | 参数 | 是否必选 | 默认值 | 参数类型 | 描述 |
|---|---|---|---|---|
| model | 是 | 无 | Str | ${container_model_path} 的值和表1模型名称一致; |
| input | 是 | 无 | Str | 支持字符串或字符串列表 |
调用多模型模型
- ${docker_ip}替换为实际宿主机的IP地址;
- ${container_model_path} 的值和表1模型名称一致;
- ${port}值为服务部署的端口号;
- ${url}值为图片地址(如https://example.com/cat.jpg)
curl http://${docker_ip}:${port}/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "${container_model_path}", "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": [ {"type": "image_url", "image_url": {"url": "${url}"}}, {"type": "text", "text": "图片中内容"} ]} ], "max_tokens": 512, "temperature": 0.7 }'
推理服务性能评测
- 魔坊(ModelArts)模型训推平台6.5.908官方版本
可参考大语言模型推理性能测试
- Vllm-Ascend开源版本
evalscope perf \ --parallel 1 2 4 8 16 32 64 128 \ --number 1 2 4 8 16 32 64 128 \ --model qwen3.6 \ --url http://0.0.0.0:8010/v1/chat/completions \ --api openai \ --dataset random \ --max-tokens 1024 \ --min-tokens 1024 \ --prefix-length 0 \ --min-prompt-length 131144 \ --max-prompt-length 131144 \ --tokenizer-path 模型权重路径 \ --extra-args '{"ignore_eos": true}'
可参考开源模型推理性能压测