更新时间:2026-03-18 GMT+08:00
分享

开始使用

  1. 通过OpenAI服务API接口启动服务使用以下推理测试命令。

    • ${docker_ip}替换为实际宿主机的IP地址。
    • ${container_model_path} 的值和表1模型名称一致;

    OpenAI Completions API with vLLM

    curl -X POST http://${docker_ip}:8080/v1/completions \
    -H "Content-Type: application/json" \
    -d '{        
          "model": "${container_model_path}",      
          "prompt": "hello",
          "max_tokens": 32,
          "temperature": 0   
    }'

    OpenAI Chat Completions API with vLLM

    curl -X POST http://${docker_ip}:8080/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "${container_model_path}",
        "messages": [
            {
                "role": "user",
                "content": "hello"
            }
        ],
        "max_tokens": 32,
        "temperature": 0
    }'

    服务的API与vLLM官网相同,此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/api/vllm/vllm.sampling_params.html

    OpenAI服务相关请求参数说明请参照表1

    表1 OpenAI服务请求参数说明

    参数

    是否必选

    默认值

    参数类型

    描述

    model

    Str

    通过OpenAI服务API接口启动服务时,推理请求必须填写此参数。取值必须和启动推理服务时的model ${container_model_path} 参数保持一致。

    通过vLLM服务API接口启动服务时,推理请求不涉及此参数。

    prompt

    -

    Str

    请求输入的问题。

    max_tokens

    16

    Int

    每个输出序列要生成的最大tokens数量。

    top_k

    -1

    Int

    控制要考虑的前几个tokens数量的整数。设置为-1表示考虑所有tokens。

    适当降低该值可以减少采样时间。

    top_p

    1.0

    Float

    控制要考虑的前几个tokens的累积概率的浮点数。必须在(0, 1]范围内。设置为1表示考虑所有tokens。

    temperature

    1.0

    Float

    控制采样的随机性的浮点数。较低的值使模型更加确定性,较高的值使模型更加随机。0表示贪婪采样。

    stop

    None

    None/Str/List

    用于停止生成的字符串列表。返回的输出将不包含停止字符串。

    例如:["你", "好"],生成文本时遇到"你"或者"好"将停止文本生成。

    stream

    False

    Bool

    是否开启流式推理。默认为False,表示不开启流式推理。

    n

    1

    Int

    返回多条正常结果。

    约束与限制:

    不使用beam_search场景下,n取值建议为1≤n≤10。如果n>1时,必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。

    使用beam_search场景下,n取值建议为1<n≤10。如果n=1,会导致推理请求失败。

    说明:

    n建议取值不超过10,n值过大会导致性能劣化,显存不足时,推理请求会失败。

    use_beam_search

    False

    Bool

    是否使用beam_search替换采样。

    约束与限制:使用该参数时,如下参数需按要求设置:

    n>1

    top_p = 1.0

    top_k = -1

    temperature = 0.0

    警告:

    使用 beam_search 时,需显式设置 max_tokens,避免请求无法按预期停止。

    presence_penalty

    0.0

    Float

    presence_penalty表示会根据当前生成的文本中新出现的词语进行奖惩。取值范围[-2.0,2.0]。

    frequency_penalty

    0.0

    Float

    frequency_penalty会根据当前生成的文本中各个词语的出现频率进行奖惩。取值范围[-2.0,2.0]。

    length_penalty

    1.0

    Float

    length_penalty表示在beam search过程中,对于较长的序列,模型会给予较大的惩罚。

    如果要使用length_penalty,必须添加如下三个参数,并且需将use_beam_search参数设置为true,best_of参数设置大于1,top_k固定为-1。

    "top_k": -1

    "use_beam_search":true

    "best_of":2

    ignore_eos

    False

    Bool

    ignore_eos表示是否忽略EOS并且继续生成token。

    guided_json

    None

    Union[str,dict,BaseModel]

    使用openai启动服务,如果需要使用JSON Schema时要配置guided_json参数,详细配置参照Structured Outputs

相关文档