LLM推理请求测试

参考vllm启动兼容OpenAI的API接口，${docker_ip}替换为实际宿主机的IP地址。如果启动服务未添加served-model-name参数，${container_model_path}的值请与model参数的值保持一致，如果使用了served-model-name参数，${container_model_path}请替换为实际使用的模型名称。

OpenAI Completions API with vLLM

curl http://${docker_ip}:8080/v1/completions \
-H "Content-Type: application/json" \
-d '{        
      "model": "${container_model_path}",      
      "prompt": "hello",
      "max_tokens": 7,
      "temperature": 0   
}'

OpenAI Chat Completions API with vLLM

curl -X POST "http://${docker_ip}:8080/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
    "model": "${container_model_path}",
    "messages": [
        {
            "role": "user",
            "content": "hello"
        }
    ],
    "max_tokens": 100,
    "top_k": -1,
    "top_p": 1,
    "temperature": 0,
    "ignore_eos": false,
    "stream": false
}'

服务的API与vLLM官网相同，此处介绍关键参数。详细参数解释请参见https://docs.vllm.ai/en/stable/api/。

embedding模型，使用OpenAI启动服务，发送推理请求使用的接口如下。

curl -X POST http://${docker_ip}:8080/v1/embeddings

表1 OpenAI服务请求参数说明
参数	是否必选	默认值	参数类型	描述
model	是	无	Str	通过OpenAI服务API接口启动服务时，推理请求必须填写此参数。取值必须和启动推理服务时的model ${container_model_path}参数保持一致。通过vLLM服务API接口启动服务时，推理请求不涉及此参数。
prompt	是	-	Str	请求输入的问题。
max_tokens	否	16	Int	每个输出序列要生成的最大tokens数量。
top_k	否	-1	Int	控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。适当降低该值可以减少采样时间。
top_p	否	1.0	Float	控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0，1] 范围内。设置为1表示考虑所有tokens。
temperature	否	1.0	Float	控制采样的随机性的浮点数。较低的值使模型更加确定性，较高的值使模型更加随机。0表示贪婪采样。
stop	否	None	None/Str/List	用于停止生成的字符串列表。返回的输出将不包含停止字符串。例如：["你"，"好"]，生成文本时遇到"你"或者"好"将停止文本生成。
stream	否	False	Bool	是否开启流式推理。默认为False，表示不开启流式推理。
n	否	1	Int	返回多条正常结果。约束与限制：不使用beam_search场景下，n取值建议为1≤n≤10。如果n>1时，必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。使用beam_search场景下，n取值建议为1<n≤10。如果n=1，会导致推理请求失败。说明： n建议取值不超过10，n值过大会导致性能劣化，显存不足时，推理请求会失败。
use_beam_search	否	False	Bool	是否使用beam_search替换采样。约束与限制：使用该参数时，如下参数需按要求设置： n>1 top_p = 1.0 top_k = -1 temperature = 0.0
presence_penalty	否	0.0	Float	presence_penalty表示会根据当前生成的文本中新出现的词语进行奖惩。取值范围[-2.0，2.0]。
frequency_penalty	否	0.0	Float	frequency_penalty会根据当前生成的文本中各个词语的出现频率进行奖惩。取值范围[-2.0，2.0]。
length_penalty	否	1.0	Float	length_penalty表示在beam search过程中，对于较长的序列，模型会给予较大的惩罚。如果要使用length_penalty，必须添加如下三个参数，并且需将use_beam_search参数设置为true，best_of参数设置大于1，top_k固定为-1。 "top_k": -1 "use_beam_search":true "best_of":2
ignore_eos	否	False	Bool	ignore_eos表示是否忽略EOS并且继续生成token。
guided_json	否	None	Union[str，dict，BaseModel]	使用openai启动服务，如果需要使用JSON Schema时要配置guided_json参数，详细配置参照https://support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_infer_5901030.html。