在Notebook调试环境中部署推理服务
在ModelArts的开发环境Notebook中可以部署推理服务进行调试。
Step1 准备Notebook
参考准备Notebook完成Notebook的创建,并打开Notebook。
Step2 准备模型代码包和权重文件
- 将OBS中的模型权重和表1获取的AscendCloud-3rdLLM-6.3.905-xxx.zip代码包上传到Notebook的工作目录/home/ma-user/work/下。上传代码参考如下。
import moxing as mox obs_dir = "obs://${bucket_name}/${folder-name}" local_dir = "/home/ma-user/work/qwen-14b" mox.file.copy_parallel(obs_dir, local_dir)
实际操作如下图所示。图1 上传OBS文件到Notebook的代码示例
- 构建推理代码。
解压AscendCloud-3rdLLM-6.3.905-xxx.zip代码包。
unzip AscendCloud-3rdLLM-6.3.905-*.zip
运行推理构建脚本build.sh文件,自动获取ascend_vllm_adapter文件夹中提供的vLLM相关算子代码。
cd llm_inference bash build.sh
运行完后,在当前目录下会生成ascend_vllm文件夹,即为昇腾适配后的vLLM代码。
Step3 配置NPU环境
在Notebook的terminal中执行如下命令进行环境配置。
配置需要的NPU卡。
export ASCEND_RT_VISIBLE_DEVICES=0,1,2,3
0,1,2,3修改为需要使用的卡,如需使用全部8张卡,修改为0,1,2,3,4,5,6,7。
配置PYTHONPATH。
export PYTHONPATH=$PYTHONPATH:${vllm_path}
${vllm_path}:指定到ascend_vllm文件夹的绝对路径。
进入工作目录。
cd ascend_vllm
Step4 部署并启动推理服务
在Step3中的terminal部署并启动推理服务。有2种方式,使用vllm-api启动推理服务,或者使用openai-api启动推理服务。参考命令如下:
# 使用vllm-api python vllm/entrypoints/api_server.py \ --model="${model_path}" \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.95 \ --max-model-len=4096 \ --trust-remote-code \ --dtype="float16" \ --host=0.0.0.0 \ --port=8080 # 使用openai-api python vllm/entrypoints/openai/api_server.py \ --model="${model_path}" \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.95 \ --max-model-len=4096 \ --trust-remote-code \ --dtype="float16" \ --host=0.0.0.0 \ --port=8080
参数说明:
- --model:模型地址,模型格式是Huggingface的目录格式。
- --tensor-parallel-size:并行卡数。
- --gpu-memory-utilization:0~1之间的float,实际使用的显存是系统读取的最大显存*gpu-memory-utilization。
- --max-model-len:最大数据输入+输出长度,不能超过模型配置文件config.json里面定义的“max_position_embeddings”和“seq_length”;如果设置过大,会占用过多显存,影响kvcache的空间。不同模型推理支持的max-model-len长度不同,具体差异请参见附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明。
- --hostname:服务部署的IP,使用本机IP 0.0.0.0。
- --port:服务部署的端口。
服务启动后,会打印如下信息。
server launch time cost: 15.443044185638428 s INFO: Started server process [2878] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8080 (Press CTRL+C to quit)
Step5 请求推理服务
另外启动一个terminal,使用命令测试推理服务是否正常启动,端口请修改为启动服务时指定的端口。
- 方式一:使用vLLM接口请求服务,命令参考如下。
curl http://localhost:8080/generate -d '{"prompt": "hello", "temperature":0, "max_tokens":20}'
vLLM接口请求参数说明参考:https://docs.vllm.ai/en/stable/dev/sampling_params.html
- 方式二:使用OpenAI接口请求服务,命令参考如下。
curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "/data/nfs/model/llama-2-7b", "temperature": 0, "max_tokens": 20, "messages": [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "hello"} ] }'
OpenAI接口请求参数说明参考:https://platform.openai.com/docs/api-reference/completions/create。
表1 请求服务参数说明 参数
是否必选
默认值
参数类型
描述
model
是
无
Str
通过OpenAI服务API接口启动服务时,推理请求必须填写此参数。取值必须和启动推理服务时的model ${container_model_path}参数保持一致。
通过vLLM服务API接口启动服务时,推理请求不涉及此参数。
prompt
是
-
Str
请求输入的问题。
max_tokens
否
16
Int
每个输出序列要生成的最大tokens数量。
top_k
否
-1
Int
控制要考虑的前几个tokens的数量的整数。设置为-1表示考虑所有tokens。
适当降低该值可以减少采样时间。
top_p
否
1.0
Float
控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。
temperature
否
1.0
Float
控制采样的随机性的浮点数。较低的值使模型更加确定性,较高的值使模型更加随机。0表示贪婪采样。
stop
否
None
None/Str/List
用于停止生成的字符串列表。返回的输出将不包含停止字符串。
例如:["你","好"],生成文本时遇到"你"或者"好"将停止文本生成。
stream
否
False
Bool
是否开启流式推理。默认为False,表示不开启流式推理。
n
否
1
Int
返回多条正常结果。
约束与限制:
不使用beam_search场景下,n取值建议为1≤n≤10。如果n>1时,必须确保不使用greedy_sample采样。也就是top_k > 1; temperature > 0。
使用beam_search场景下,n取值建议为1<n≤10。如果n=1,会导致推理请求失败。
说明:n建议取值不超过10,n值过大会导致性能劣化,显存不足时,推理请求会失败。
use_beam_search
否
False
Bool
是否使用beam_search替换采样。
约束与限制:使用该参数时,如下参数需按要求设置:
n>1
top_p = 1.0
top_k = -1
temperature = 0.0
presence_penalty
否
0.0
Float
presence_penalty表示会根据当前生成的文本中新出现的词语进行奖惩。取值范围[-2.0,2.0]。
frequency_penalty
否
0.0
Float
frequency_penalty会根据当前生成的文本中各个词语的出现频率进行奖惩。取值范围[-2.0,2.0]。
length_penalty
否
1.0
Float
length_penalty表示在beam search过程中,对于较长的序列,模型会给予较大的惩罚。
如果要使用length_penalty,必须添加如下三个参数,并且需将use_beam_search参数设置为true,best_of参数设置大于1,top_k固定为-1。
"top_k": -1
"use_beam_search":true
"best_of":2
Step6 推理服务的高阶配置(可选)
如需开启以下高阶配置,请在Step3 配置NPU环境时增加需要开启的高阶配置参数。
- 词表切分
在分布式场景下,默认不使用词表切分能提升推理性能,同时也会增加单卡的显存占用。不建议开启词表并行,如确需使用词表切分,配置以下环境变量。
export USE_VOCAB_PARALLEL=1
关闭词表切分的命令:
unset USE_VOCAB_PARALLEL
配置后重启推理服务生效。
附录:基于vLLM(v0.3.2)不同模型推理支持的max-model-len长度说明
基于vLLM(v0.3.2)部署推理服务时,不同模型推理支持的max-model-len长度说明如下面的表格所示。如需达到以下值,需要将--gpu-memory-utilization设为0.9,qwen系列、qwen1.5系列、llama3系列模型还需打开词表切分配置export USE_VOCAB_PARALLEL=1。
序号 |
模型名称 |
4*64GB |
8*32GB |
---|---|---|---|
1 |
qwen1.5-72b |
24576 |
8192 |
2 |
qwen-72b |
24576 |
8192 |
3 |
llama3-70b |
32768 |
8192 |
4 |
llama2-70b |
98304 |
32768 |
6 |
llama-65b |
24576 |
8192 |
序号 |
模型名称 |
2*64GB |
4*32GB |
---|---|---|---|
1 |
qwen1.5-32b |
65536 |
24576 |
序号 |
模型名称 |
1*64GB |
1*32GB |
---|---|---|---|
1 |
qwen1.5-7b |
49152 |
16384 |
2 |
qwen-7b |
49152 |
16384 |
3 |
llama3-8b |
98304 |
32768 |
4 |
llama2-7b |
126976 |
16384 |
5 |
chatglm3-6b |
126976 |
65536 |
6 |
chatglm2-6b |
126976 |
65536 |
序号 |
模型名称 |
1*64GB |
2*32GB |
---|---|---|---|
1 |
qwen1.5-14b |
24576 |
24576 |
2 |
qwen-14b |
24576 |
24576 |
3 |
llama2-13b |
24576 |
24576 |
说明:机器型号规格以卡数*显存大小为单位,如4*64GB代表4张64GB显存的NPU卡。