更新时间:2024-08-17 GMT+08:00
分享

在Notebook调试环境中部署推理服务

在ModelArts的开发环境Notebook中可以部署推理服务进行调试。

Step1 准备Notebook

参考准备Notebook完成Notebook的创建,并打开Notebook。

Step2 准备模型代码包和权重文件

  1. 将OBS中的模型权重和表1获取的AscendCloud-3rdLLM-6.3.905-xxx.zip代码包上传到Notebook的工作目录/home/ma-user/work/下。上传代码参考如下。
    import moxing as mox
    
    obs_dir = "obs://${bucket_name}/${folder-name}"
    local_dir = "/home/ma-user/work/qwen-14b"
    
    mox.file.copy_parallel(obs_dir, local_dir)
    实际操作如下图所示。
    图1 上传OBS文件到Notebook的代码示例
  2. 构建推理代码。

    解压AscendCloud-3rdLLM-6.3.905-xxx.zip代码包。

    unzip AscendCloud-3rdLLM-6.3.905-*.zip

    运行推理构建脚本build.sh文件,自动获取ascend_vllm_adapter文件夹中提供的vLLM相关算子代码。

    cd llm_inference
    bash build.sh

    运行完后,在当前目录下会生成ascend_vllm文件夹,即为昇腾适配后的vLLM代码。

Step3 配置NPU环境

在Notebook的terminal中执行如下命令进行环境配置。

配置需要的NPU卡。

export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3

0,1,2,3修改为需要使用的卡,如需使用全部8张卡,修改为0,1,2,3,4,5,6,7。

配置PYTHONPATH。

export PYTHONPATH=$PYTHONPATH:${vllm_path}

${vllm_path}:指定到ascend_vllm文件夹的绝对路径。

进入工作目录。

cd ascend_vllm

Step4 部署并启动推理服务

在Step3中的terminal部署并启动推理服务。有2种方式,使用vllm-api启动推理服务,或者使用openai-api启动推理服务。参考命令如下:

# 使用vllm-api
python vllm/entrypoints/api_server.py \
--model="${model_path}" \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95 \
--max-model-len=4096 \
--trust-remote-code \
--dtype="float16" \
--host=0.0.0.0 \
--port=8080

# 使用openai-api
python vllm/entrypoints/openai/api_server.py \
--model="${model_path}" \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95 \
--max-model-len=4096 \
--trust-remote-code \
--dtype="float16" \
--host=0.0.0.0 \
--port=8080

参数说明:

  • --model:模型地址,模型格式是Huggingface的目录格式。
  • --tensor-parallel-size:并行卡数。
  • --gpu-memory-utilization:0~1之间的float,实际使用的显存是系统读取的最大显存*gpu-memory-utilization。
  • --max-model-len:最大数据输入+输出长度,不能超过模型配置文件config.json里面定义的“max_position_embeddings”和“seq_length”;如果设置过大,会占用过多显存,影响kvcache的空间。不同模型推理支持的max-model-len长度不同,具体差异请参见附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明
  • --hostname:服务部署的IP,使用本机IP 0.0.0.0。
  • --port:服务部署的端口。

服务启动后,会打印如下信息。

server launch time cost: 15.443044185638428 s
INFO:     Started server process [2878]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)

Step5 请求推理服务

另外启动一个terminal,使用命令测试推理服务是否正常启动,端口请修改为启动服务时指定的端口。

  • 方式一:使用vLLM接口请求服务,命令参考如下。
    curl http://localhost:8080/generate  -d '{"prompt": "hello", "temperature":0, "max_tokens":20}'

    vLLM接口请求参数说明参考:https://docs.vllm.ai/en/stable/dev/sampling_params.html

  • 方式二:使用OpenAI接口请求服务,命令参考如下。
    curl http://localhost:8080/v1/chat/completions \
        -H "Content-Type: application/json" \
        -d '{
            "model": "/data/nfs/model/llama-2-7b",
            "temperature": 0,
            "max_tokens": 20,
            "messages": [
                {"role": "system", "content": "You are a helpful assistant."},
                {"role": "user", "content": "hello"}
            ]
        }'

    OpenAI接口请求参数说明参考:https://platform.openai.com/docs/api-reference/completions/create

    表1 请求服务参数说明

    参数

    是否必选

    默认值

    参数类型

    描述

    model

    Str

    通过OpenAI服务API接口启动服务时,推理请求必须填写此参数。取值必须和启动推理服务时的model ${container_model_path}参数保持一致。

    通过vLLM服务API接口启动服务时,推理请求不涉及此参数。

    prompt

    -

    Str

    请求输入的问题。

    max_tokens

    16

    Int

    每个输出序列要生成的最大tokens数量。

    top_k

    -1

    Int

    控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。

    适当降低该值可以减少采样时间。

    top_p

    1.0

    Float

    控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。

    temperature

    1.0

    Float

    控制采样的随机性的浮点数。较低的值使模型更加确定性,较高的值使模型更加随机。0表示贪婪采样。

    stop

    None

    None/Str/List

    用于停止生成的字符串列表。返回的输出将不包含停止字符串。

    例如:["你","好"],生成文本时遇到"你"或者"好"将停止文本生成。

    stream

    False

    Bool

    是否开启流式推理。默认为False,表示不开启流式推理。

    n

    1

    Int

    返回多条正常结果。

    约束与限制:

    不使用beam_search场景下,n取值建议为1≤n≤10。如果n>1时,必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。

    使用beam_search场景下,n取值建议为1<n≤10。如果n=1,会导致推理请求失败。

    说明:

    n建议取值不超过10,n值过大会导致性能劣化,显存不足时,推理请求会失败。

    use_beam_search

    False

    Bool

    是否使用beam_search替换采样。

    约束与限制:使用该参数时,如下参数需按要求设置:

    n>1

    top_p = 1.0

    top_k = -1

    temperature = 0.0

    presence_penalty

    0.0

    Float

    presence_penalty表示会根据当前生成的文本中新出现的词语进行奖惩。取值范围[-2.0,2.0]。

    frequency_penalty

    0.0

    Float

    frequency_penalty会根据当前生成的文本中各个词语的出现频率进行奖惩。取值范围[-2.0,2.0]。

    length_penalty

    1.0

    Float

    length_penalty表示在beam search过程中,对于较长的序列,模型会给予较大的惩罚。

    如果要使用length_penalty,必须添加如下三个参数,并且需将use_beam_search参数设置为true,best_of参数设置大于1,top_k固定为-1。

    "top_k": -1

    "use_beam_search":true

    "best_of":2

Step6 推理服务的高阶配置(可选)

如需开启以下高阶配置,请在Step3 配置NPU环境时增加需要开启的高阶配置参数。

  • 词表切分

    在分布式场景下,默认不使用词表切分能提升推理性能,同时也会增加单卡的显存占用。不建议开启词表并行,如确需使用词表切分,配置以下环境变量。

    export USE_VOCAB_PARALLEL=1

    关闭词表切分的命令:

    unset USE_VOCAB_PARALLEL

    配置后重启推理服务生效。

  • Matmul_all_reduce融合算子

    使用Matmul_all_reduce融合算子能提升全量推理性能,该算子对驱动和固件版本要求较高,默认不开启。如需开启,配置以下环境变量。

    export USE_MM_ALL_REDUCE_OP=1

    关闭Matmul_all_reduce融合算子的命令:

    unset  USE_MM_ALL_REDUCE_OP

    配置后重启推理服务生效。

  • 查看详细日志

    查看详细耗时日志可以辅助定位性能瓶颈,但会影响推理性能。如需开启,配置以下环境变量。

    export DETAIL_TIME_LOG=1
    export RAY_DEDUP_LOGS=0

    关闭详细日志命令:

    unset  DETAIL_TIME_LOG

    配置后重启推理服务生效。

Step7 推理性能和精度测试

推理性能和精度测试操作请参见推理性能测试推理精度测试

附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明

基于vLLM(v0.3.2)部署推理服务时,不同模型推理支持的max-model-len长度说明如下面的表格所示。如需达到以下值,需要将--gpu-memory-utilization设为0.9,qwen系列、qwen1.5系列、llama3系列模型还需打开词表切分配置export USE_VOCAB_PARALLEL=1。

序号

模型名称

4*64GB

8*32GB

1

qwen1.5-72b

24576

8192

2

qwen-72b

24576

8192

3

llama3-70b

32768

8192

4

llama2-70b

98304

32768

6

llama-65b

24576

8192

序号

模型名称

2*64GB

4*32GB

1

qwen1.5-32b

65536

24576

序号

模型名称

1*64GB

1*32GB

1

qwen1.5-7b

49152

16384

2

qwen-7b

49152

16384

3

llama3-8b

98304

32768

4

llama2-7b

126976

16384

5

chatglm3-6b

126976

65536

6

chatglm2-6b

126976

65536

序号

模型名称

1*64GB

2*32GB

1

qwen1.5-14b

24576

24576

2

qwen-14b

24576

24576

3

llama2-13b

24576

24576

说明:机器型号规格以卡数*显存大小为单位,如4*64GB代表4张64GB显存的NPU卡。

相关文档