开始使用
- 通过OpenAI服务API接口启动服务使用以下推理测试命令。
- ${docker_ip}替换为实际宿主机的IP地址。
- ${container_model_path} 的值和表1模型名称一致;
OpenAI Completions API with vLLM
curl -X POST http://${docker_ip}:8080/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "${container_model_path}", "prompt": "hello", "max_tokens": 32, "temperature": 0 }'OpenAI Chat Completions API with vLLM
curl -X POST http://${docker_ip}:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "${container_model_path}", "messages": [ { "role": "user", "content": "hello" } ], "max_tokens": 32, "temperature": 0 }'服务的API与vLLM官网相同,此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/api/vllm/vllm.sampling_params.html
OpenAI服务相关请求参数说明请参照表1。
表1 OpenAI服务请求参数说明 参数
是否必选
默认值
参数类型
描述
model
是
无
Str
通过OpenAI服务API接口启动服务时,推理请求必须填写此参数。取值必须和启动推理服务时的model ${container_model_path} 参数保持一致。
通过vLLM服务API接口启动服务时,推理请求不涉及此参数。
prompt
是
-
Str
请求输入的问题。
max_tokens
否
16
Int
每个输出序列要生成的最大tokens数量。
top_k
否
-1
Int
控制要考虑的前几个tokens数量的整数。设置为-1表示考虑所有tokens。
适当降低该值可以减少采样时间。
top_p
否
1.0
Float
控制要考虑的前几个tokens的累积概率的浮点数。必须在(0, 1]范围内。设置为1表示考虑所有tokens。
temperature
否
1.0
Float
控制采样的随机性的浮点数。较低的值使模型更加确定性,较高的值使模型更加随机。0表示贪婪采样。
stop
否
None
None/Str/List
用于停止生成的字符串列表。返回的输出将不包含停止字符串。
例如:["你", "好"],生成文本时遇到"你"或者"好"将停止文本生成。
stream
否
False
Bool
是否开启流式推理。默认为False,表示不开启流式推理。
n
否
1
Int
返回多条正常结果。
约束与限制:
不使用beam_search场景下,n取值建议为1≤n≤10。如果n>1时,必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。
使用beam_search场景下,n取值建议为1<n≤10。如果n=1,会导致推理请求失败。
说明:n建议取值不超过10,n值过大会导致性能劣化,显存不足时,推理请求会失败。
use_beam_search
否
False
Bool
是否使用beam_search替换采样。
约束与限制:使用该参数时,如下参数需按要求设置:
n>1
top_p = 1.0
top_k = -1
temperature = 0.0
警告:使用 beam_search 时,需显式设置 max_tokens,避免请求无法按预期停止。
presence_penalty
否
0.0
Float
presence_penalty表示会根据当前生成的文本中新出现的词语进行奖惩。取值范围[-2.0,2.0]。
frequency_penalty
否
0.0
Float
frequency_penalty会根据当前生成的文本中各个词语的出现频率进行奖惩。取值范围[-2.0,2.0]。
length_penalty
否
1.0
Float
length_penalty表示在beam search过程中,对于较长的序列,模型会给予较大的惩罚。
如果要使用length_penalty,必须添加如下三个参数,并且需将use_beam_search参数设置为true,best_of参数设置大于1,top_k固定为-1。
"top_k": -1
"use_beam_search":true
"best_of":2
ignore_eos
否
False
Bool
ignore_eos表示是否忽略EOS并且继续生成token。
guided_json
否
None
Union[str,dict,BaseModel]
使用openai启动服务,如果需要使用JSON Schema时要配置guided_json参数,详细配置参照Structured Outputs。