推理性能测试

更新时间：2024-12-17 GMT+08:00

查看PDF

本章节介绍如何进行推理性能测试，建议在Notebook的JupyterLab中另起一个Terminal，执行benchmark脚本进行性能测试。如果需要在生产环境中进行推理性能测试，请通过调用接口的方式进行测试。

约束限制

创建在线服务时，每秒服务流量限制默认为100次，如果静态benchmark的并发数（parallel-num参数）或动态benchmark的请求频率（request-rate参数）较高，会触发推理平台的流控，请在ModelArts Standard“在线服务”详情页修改服务流量限制。
同步请求时，平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求（例如输出大于1k），请求预测会超过60秒导致调用失败，可提交工单设置请求超时时间。

benchmark方法介绍

性能benchmark包括两部分。

静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。
动态性能测试：评估在请求并发在一定范围内波动，且输入输出长度也在一定范围内变化时，模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求，能评估推理框架在实际业务中能支持的并发数。

性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/llm_evaluation目录下。

代码目录如下:

benchmark_tools 
├── benchmark_parallel.py  # 评测静态性能脚本
├── benchmark_serving.py  # 评测动态性能脚本
├── generate_dataset.py   # 生成自定义数据集的脚本
├── benchmark_utils.py   # 工具函数集
├── benchmark.py         # 执行静态、动态性能评测脚本
├── requirements.txt       # 第三方依赖

目前性能测试已经支持投机推理能力。

执行性能测试脚本前，需先安装相关依赖。

conda activate python-3.9.10
pip install -r requirements.txt

静态benchmark

运行静态benchmark验证脚本benchmark_parallel.py，具体操作命令如下，可以根据参数说明修改参数。

Notebook中进行测试：

conda activate python-3.9.10
cd benchmark_tools 
python benchmark_parallel.py --backend openai --host 127.0.0.1 --port 8080 \
--tokenizer /path/to/tokenizer --epochs 10 --parallel-num 1 2 4 8  --output-tokens 256 256 --prompt-tokens 1024 2048 --benchmark-csv benchmark_parallel.csv

生产环境中进行测试：

python benchmark_parallel.py --backend openai --url xxx --app-code xxx \
--tokenizer /path/to/tokenizer --epochs 10 --parallel-num 1 2 4 8  --output-tokens 256 256 --prompt-tokens 1024 2048 --benchmark-csv benchmark_parallel.csv

参数说明：

--backend：服务类型，支持tgi、vllm、mindspore、openai等。本文档使用的推理接口是vllm。
--host：服务IP地址，如127.0.0.1。
--port：服务端口，和推理服务端口8080。
--url：如果以vllm接口方式启动服务，API接口公网地址与"/generate"拼接而成；如果以openai接口方式启动服务，API接口公网地址与"/v1/completions"拼接而成。部署成功后的在线服务详情页中可查看API接口公网地址。
图1 API接口公网地址
--app-code：获取方式见访问在线服务（APP认证）。
--tokenizer：tokenizer路径，HuggingFace的权重路径。如果服务部署在Notebook中，该参数为Notebook中权重路径；如果服务部署在生产环境中，该参数为本地模型权重路径。
--served-model-name：仅在以openai接口启动服务时需要该参数。如果服务部署在Notebook中，该参数为Notebook中权重路径；如果服务部署在生产环境中，该参数为服务启动脚本run_vllm.sh中的${model_path}。
--epochs：测试轮数，默认取值为5。
--parallel-num：每轮并发数，支持多个，如 1 4 8 16 32。
--prompt-tokens：输入长度，支持多个，如 128 128 2048 2048，数量需和--output-tokens的数量对应。
--output-tokens：输出长度，支持多个，如 128 2048 128 2048，数量需和--prompt-tokens的数量对应。
--num-scheduler-steps: 服务启动时如果配置了--num-scheduler-steps和--multi-step-stream-outputs=false，则需配置此参数与服务启动时--num-scheduler-steps一致。
--enable-prefix-caching：服务端是否启用enable-prefix-caching特性，默认为false。
--prefix-caching-num：构造的prompt的公共前缀的序列长度，prefix-caching-num值需小于prompt-tokens。
--use-spec-decode：是否使用投机推理进行输出统计，不输入默认为false。当使用投机推理时必须开启，否则会导致输出token数量统计不正确。注：由于投机推理的性能测试使用随机输入意义不大，建议开启--dataset-type、--dataset-path，并选择性开启--use-real-dataset-output-tokens使用真实数据集进行测试。
--dataset-type：当使用投机推理时开启，benchmark使用的数据类型，当前支持random、sharegpt、human-eval三种输入。random表示构造随机token的数据集进行测试；sharegpt表示使用sharegpt数据集进行测试；human-eval数据集表示使用human-eval数据集进行测试。注意：当输入为sharegpt或human-eval时，测试数据的输入长度为数据集的真实长度，--prompt-tokens的值会被忽略。
--dataset-path：数据集的路径，仅当--dataset-type为sharegpt或者human-eval的时候生效。
--use-real-dataset-output-tokens：当使用投机推理时开启，设置输出长度是否使用数据集的真实长度，不输入默认为false。当使用该选项时，测试数据的输出长度为数据集的真实长度，--output-tokens的值会被忽略。
--num-speculative-tokens：仅当开启--use-spec-decode时生效，需和服务启动时配置的--num-speculative-tokens一致。默认为-1。当该值大于等于0时，会基于该值计算投机推理的接受率指标。

脚本运行完成后，测试结果保存在benchmark_parallel.csv中，示例如下图所示。

图2 静态benchmark测试结果（示意图）

动态benchmark

获取测试数据集。
动态benchmark需要使用数据集进行测试，可以使用公开数据集，例如Alpaca、ShareGPT。也可以根据业务实际情况，使用generate_datasets.py脚本生成和业务数据分布接近的数据集。

公开数据集下载地址：
- ShareGPT: https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered/resolve/main/ShareGPT_V3_unfiltered_cleaned_split.json
- Alpaca: https://github.com/tatsu-lab/stanford_alpaca/blob/main/alpaca_data.json
使用generate_dataset.py脚本生成数据集方法：

generate_datasets.py脚本通过指定输入输出长度的均值和标准差，生成一定数量的正态分布的数据。具体操作命令如下，可以根据参数说明修改参数。
```
cd benchmark_tools 
python generate_dataset.py --dataset custom_datasets.json --tokenizer /path/to/tokenizer \
--min-input 100 --max-input 3600 --avg-input 1800 --std-input 500 \
--min-output 40 --max-output 256 --avg-output 160 --std-output 30 --num-requests 1000
```
generate_dataset.py脚本执行参数说明如下：
- --dataset：数据集保存路径，如custom_datasets.json。
- --tokenizer：tokenizer路径，可以是HuggingFace的权重路径。
- --min-input：输入tokens最小长度，可以根据实际需求设置。
- --max-input：输入tokens最大长度，可以根据实际需求设置。
- --avg-input：输入tokens长度平均值，可以根据实际需求设置。
- --std-input：输入tokens长度方差，可以根据实际需求设置。
- --min-output：最小输出tokens长度，可以根据实际需求设置。
- --max-output：最大输出tokens长度，可以根据实际需求设置。
- --avg-output：输出tokens长度平均值，可以根据实际需求设置。
- --std-output：输出tokens长度标准差，可以根据实际需求设置。
- --num-requests：输出数据集的数量，可以根据实际需求设置。
执行脚本benchmark_serving.py测试动态benchmark。具体操作命令如下，可以根据参数说明修改参数。
Notebook中进行测试：
```
conda activate python-3.9.10
cd benchmark_tools
python benchmark_serving.py --backend openai --host 127.0.0.1 --port 8080 --dataset custom_dataset.json --dataset-type custom --tokenizer /path/to/tokenizer --request-rate 0.01 1 2 4 8 10 20 --num-prompts 10 1000 1000 1000 1000 1000 1000 --max-tokens 4096 --max-prompt-tokens 3768 --benchmark-csv benchmark_serving.csv
```
生产环境中进行测试：
```
python benchmark_serving.py --backend openai --url xxx --app-code xxx --dataset custom_dataset.json --dataset-type custom --tokenizer /path/to/tokenizer --request-rate 0.01 1 2 4 8 10 20 --num-prompts 10 1000 1000 1000 1000 1000 1000 --max-tokens 4096 --max-prompt-tokens 3768 --benchmark-csv benchmark_serving.csv
```
- --backend：服务类型，支持tgi、vllm、mindspore、openai等。本文档使用的推理接口是vllm。
- --host：服务IP地址，如127.0.0.1。
- --port：服务端口。
- --url：如果以vllm接口方式启动服务，API接口公网地址与"/generate"拼接而成；如果以openai接口方式启动服务，API接口公网地址与"/v1/completions"拼接而成。部署成功后的在线服务详情页中可查看API接口公网地址。
  图3 API接口公网地址
- --app-code：获取方式见访问在线服务（APP认证）。
- --dataset：数据集路径。
- --dataset-type：支持三种 "alpaca"，"sharegpt"，"custom"。custom为自定义数据集。
- --tokenizer：tokenizer路径，可以是huggingface的权重路径。如果服务部署在Notebook中，该参数为Notebook中权重路径；如果服务部署在生产环境中，该参数为本地模型权重路径。
- --served-model-name：仅在以openai接口启动服务时需要该参数。如果服务部署在Notebook中，该参数为Notebook中权重路径；如果服务部署在生产环境中，该参数为服务启动脚本run_vllm.sh中的${model_path}。
- --request-rate：请求频率，支持多个，如 0.1 1 2。实际测试时，会根据request-rate为均值的指数分布来发送请求以模拟真实业务场景。
- --num-prompts：某个频率下请求数，支持多个，如 10 100 100，数量需和--request-rate的数量对应。
- --max-tokens：输入+输出限制的最大长度，模型启动参数--max-input-length值需要大于该值。
- --max-prompt-tokens：输入限制的最大长度，推理时最大输入tokens数量，模型启动参数--max-total-tokens值需要大于该值，tokenizer建议带tokenizer.json的FastTokenizer。
- --benchmark-csv：结果保存路径，如benchmark_serving.csv。
- --num-scheduler-steps: 服务启动时如果配置了--num-scheduler-steps和--multi-step-stream-outputs=false，则需配置此参数与服务启动时--num-scheduler-steps一致。
脚本运行完后，测试结果保存在benchmark_serving.csv中，示例如下图所示。

图4 动态benchmark测试结果（示意图）