文档首页/ AI开发平台ModelArts/ 最佳实践/ LLM大语言模型推理/ LLM大语言模型推理历史版本文档/ 主流开源大模型基于Lite Server适配Ascend-vLLM框架NPU推理指导（6.5.907）/ 推理服务性能评测/ 多模态模型推理性能测试

更新时间：2025-09-17 GMT+08:00

查看PDF

多模态模型推理性能测试

多模态模型推理的性能测试目前支持语言+图片、语言+视频模式的测试。测试过程通过acs-bench工具实现，acs-bench工具安装请参考安装acs-bench工具。

约束限制

当前版本支持语言+图片、语言+视频多模态性能测试。

获取数据集

生成图像+文本离线数据集，详细参数解释请参见生成数据集参数说明。

# 生成对应的随机数据集（图像加文本），以token长度为100，图像长宽分别为(250, 250)为例
acs-bench generate dataset \
--tokenizer ./model/Qwen-2.5-VL-72B/ \
--output-path ./ \
--num-requests 10 \
--input-length 100 \
--modal-type "image-text" \
--config-option image_height:250,image_width:250

生成的json数据集文件会存放在--output-path目录下，名称为${input-length}_image_${image_height}_${image_width}.json

生成视频+文本离线数据集，详细参数解释请参见生成数据集参数说明。

# 生成对应的随机数据集（视频加文本），以token长度为100，视频帧长宽分别为(250, 250)、视频时长和帧数分别为(3，25)为例
acs-bench generate dataset \
--tokenizer ./model/Qwen-2.5-VL-72B/ \
--output-path ./ \
--num-requests 10 \
--input-length 100 \
--modal-type "video-text" \
--config-option image_height:250,image_width:250,duration:3,fsp:25

生成的json数据集文件会存放在--output-path目录下，名称为${input-length}_video_${image_height}_${image_width}_${duration}_${fps}.json

生成数据集命令中的--input-length和--num-requests仅支持单个值。

如果需要生成其他规格的数据集，将--input-length或--num-requests修改成对应规格的值后，执行命令。

性能压测模式验证

使用acs-bench prof命令对多模态模型进行性能压测的示例如下，详细参数解释请参见使用示例的参数说明，输出产物说明参见产物说明。

# (1)以图片+文本多模态为例，使用线程池为例进行并发测试（后端并发模式默认为多线程模式`threading-pool`，可以选择异步协程并发模式`asyncio`、多进程模式`processing-pool`或者多线程模式`threading-pool`）
$ acs-bench prof \
--tokenizer ./model/Qwen-2.5-VL-72B/ \
--provider ./provider/providers.yaml \
--input-path ./built_in_dataset/ \
--concurrency-backend threading-pool \
--backend openai-chat --warmup 1 \
--epochs 2 \
--num-requests 1,2,4,8 --concurrency 1,2,4,8 \
--input-length 128,2048 --output-length 128,2048 \
--modal-type "image-text" \
--config-option image_height:250,image_width:250 \
--benchmark-save-path ./output_path/

# (2)以视频+文本多模态为例，使用线程池为例进行并发测试（后端并发模式默认为多线程模式`threading-pool`，可以选择异步协程并发模式`asyncio`、多进程模式`processing-pool`或者多线程模式`threading-pool`）
$ acs-bench prof \
--tokenizer ./model/Qwen-2.5-VL-72B/ \
--provider ./provider/providers.yaml \
--input-path ./built_in_dataset/ \
--concurrency-backend threading-pool \
--backend openai-chat --warmup 1 \
--epochs 2 \
--num-requests 1,2,4,8 --concurrency 1,2,4,8 \
--input-length 128,2048 --output-length 128,2048 \
--modal-type "video-text" \
--config-option image_height:250,image_width:250,duration:3,fsp:25 \
--benchmark-save-path ./output_path/

爬坡模式验证

使用acs-bench prof命令对多模态模型进行爬坡压测的示例如下，详细参数解释请参见使用示例的参数说明，输出产物说明参见产物说明。

# (1)以图片+文本多模态为例，使用线程池为例进行爬坡测试（后端并发模式默认为多线程模式`threading-pool`，可以选择异步协程并发模式`asyncio`、多进程模式`processing-pool`或者多线程模式`threading-pool`）
$ acs-bench prof \
--tokenizer ./model/Qwen-2.5-VL-72B/ \
--provider ./provider/providers.yaml \
--input-path ./built_in_dataset/ \
--concurrency-backend threading-pool \
--backend openai-chat --warmup 1 \
--epochs 2 \
--use-climb --climb-mode linear --growth-rate 2 --init-concurrency 1 --growth-interval 5000 \
--num-requests 1,2,4,8 --concurrency 1,2,4,8 \
--input-length 128,2048 --output-length 128,2048 \
--modal-type "image-text" \
--config-option image_height:250,image_width:250 \
--benchmark-save-path ./output_path/

# (2)以视频+文本多模态为例，使用线程池为例进行爬坡测试（后端并发模式默认为多线程模式`threading-pool`，可以选择异步协程并发模式`asyncio`、多进程模式`processing-pool`或者多线程模式`threading-pool`）
$ acs-bench prof \
--tokenizer ./model/Qwen-2.5-VL-72B/ \
--provider ./provider/providers.yaml \
--input-path ./built_in_dataset/ \
--concurrency-backend threading-pool \
--backend openai-chat --warmup 1 \
--epochs 2 \
--use-climb --climb-mode linear --growth-rate 2 --init-concurrency 1 --growth-interval 5000 \
--num-requests 1,2,4,8 --concurrency 1,2,4,8 \
--input-length 128,2048 --output-length 128,2048 \
--modal-type "video-text" \
--config-option image_height:250,image_width:250,duration:3,fsp:25 \
--benchmark-save-path ./output_path/

性能压测模式验证和爬坡模式验证示例中的 --input-length参数值，必须在提前生成的数据集中存在，如果不存在，参考获取数据集，生成对应输入长度的数据集。

父主题： 推理服务性能评测

上一篇：大语言模型推理性能测试

下一篇：获取模型推理的Profiling数据

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问

多模态模型推理性能测试

约束限制

获取数据集

性能压测模式验证

爬坡模式验证

相关文档

意见反馈

文档内容是否对您有帮助？