文档首页/
AI开发平台ModelArts/
最佳实践/
DeepSeek基于Lite Server&Cluster推理/
Qwen3模型基于ModelArts Lite Server适配NPU的混部推理解决方案/
查看指标、配置告警/
配置推理层监控告警/
在Prometheus查看vLLM业务指标
更新时间:2025-09-08 GMT+08:00
在Prometheus查看vLLM业务指标
- 支持的指标见vllm-0.9.0-Metrics(目前使用的vllm版本是0.9.0),可以调用vllm的指标API查看业务指标:http://ip:port/metrics。
- 在PD分离部署下,当前仅支持独立调用P或D实例获取指标。
- 多机部署或单机部署下,当前支持的是vllm原生的全量指标。
- 如果客户想对接Prometheus和Grafana,可参考vllm官方指导文档Prometheus and Grafana — vLLM。
父主题: 配置推理层监控告警