文档首页>
AI开发平台ModelArts>
最佳实践>
LLM大语言模型>
LLama2-13B(PyTorch)基于DevServer训练推理指导>
推理部署(ATB)>
推理性能测试>
benchmark方法介绍
更新时间:2024-04-30 GMT+08:00
benchmark方法介绍
性能benchmark包括两部分。
- 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。
- 动态性能测试:评估在请求并发在一定范围内波动,且输入输出长度也在一定范围内变化时,模型的延迟和吞吐。该场景能模拟实际业务下动态的发送不同长度请求,能评估推理框架在实际业务中能支持的并发数。
性能benchmark验证使用到的脚本存放在代码包AscendCloud-3rdLLM-x.x.x.zip的llm_evaluation目录下。
代码目录如下:
benchmark_tools ├── benchmark_parallel.py # 评测静态性能脚本 ├── benchmark_serving.py # 评测动态性能脚本 ├── generate_dataset.py # 生成自定义数据集的脚本 ├── benchmark_utils.py # 工具函数集 ├── benchmark.py # 执行静态,动态性能评测脚本
父主题: 推理性能测试