更新时间:2025-10-14 GMT+08:00
分享

在Prometheus查看vLLM业务指标

  1. 多机部署或单机部署下,DeepSeek系列支持的指标见vllm-0.6.3.post1-Metrics(使用的vllm版本是0.6.3.post1),Qwen系列支持的指标见vllm-0.9.0-Metrics(使用的vllm版本是0.9.0),可以调用vllm的指标API查看:http://${ip}:${port}/metrics。
  2. 在PD分离部署下,当前仅支持独立调用Prefill或Decode实例获取指标,可以调用对应实例的指标API查看:http://${ip}:${port}/metrics。
    1. Prefill支持的指标有:num_requests_running、num_requests_waiting、time_to_first_token_seconds、prompt_tokens_total。
    2. Decode支持的指标有:num_requests_running、num_requests_waiting、time_per_output_token_seconds、generation_tokens_total、e2e_request_latency_seconds。
  3. 如果客户想对接Prometheus和Grafana,可参考vllm官方指导文档Prometheus and Grafana — vLLM

相关文档