文档首页/
AI开发平台ModelArts/
最佳实践/
DeepSeek&Qwen3基于Lite Server&Cluster推理/
DeepSeek&Qwen3模型基于ModelArts Lite Cluster适配NPU的混部推理解决方案/
查看指标、配置告警/
配置推理层监控告警/
在Prometheus查看vLLM业务指标
更新时间:2025-10-14 GMT+08:00
在Prometheus查看vLLM业务指标
- 多机部署或单机部署下,开源三方大模型支持的指标见vllm-0.9.0-Metrics(使用的vllm版本是0.9.0),其中DeepSeek系列支持的指标见vllm-0.6.3.post1-Metrics(使用的vllm版本是0.6.3.post1),可以调用vllm的指标API查看:http://${ip}:${port}/metrics。
- 在PD分离部署下,当前仅支持独立调用Prefill或Decode实例获取指标,可以调用对应实例的指标API查看:http://${ip}:${port}/metrics。
- Prefill支持的指标有:num_requests_running、num_requests_waiting、time_to_first_token_seconds、prompt_tokens_total。
- Decode支持的指标有:num_requests_running、num_requests_waiting、time_per_output_token_seconds、generation_tokens_total、e2e_request_latency_seconds。
- 如果客户想对接Prometheus和Grafana,可参考vllm官方指导文档Prometheus and Grafana — vLLM。
父主题: 配置推理层监控告警