[Metrics] Fix KV cache usage percent metric multiproc (vllm-project#28792)

jaywonchung · web-flow · commit d4acf518d095 · 2025-11-17T09:54:15.000Z
The `vllm:kv_cache_usage_perc` Gauge metric is missing `multiprocess_mode="mostrecent"` and ends up returning

```
vllm:kv_cache_usage_perc{engine="0",model_name="Qwen/Qwen3-VL-8B-Instruct",pid="277"} 0.0
vllm:kv_cache_usage_perc{engine="0",model_name="Qwen/Qwen3-VL-8B-Instruct",pid="275"} 0.0
vllm:kv_cache_usage_perc{engine="0",model_name="Qwen/Qwen3-VL-8B-Instruct",pid="273"} 0.6530455880475035
...
```

The deprecated `vllm:gpu_cache_usage_perc` Gauge metric has `multiprocess_mode="mostrecent"`.

Signed-off-by: Jae-Won Chung &lt;jwnchung@umich.edu&gt;
diff --git a/vllm/v1/metrics/loggers.py b/vllm/v1/metrics/loggers.py
@@ -494,6 +494,7 @@ def __init__(
         gauge_kv_cache_usage = self._gauge_cls(
             name="vllm:kv_cache_usage_perc",
             documentation="KV-cache usage. 1 means 100 percent usage.",
+            multiprocess_mode="mostrecent",
             labelnames=labelnames,
         )
         self.gauge_kv_cache_usage = make_per_engine(

Original file line number	Diff line number	Diff line change
`@@ -494,6 +494,7 @@ def __init__(`
`494`	`494`	`gauge_kv_cache_usage = self._gauge_cls(`
`495`	`495`	`name="vllm:kv_cache_usage_perc",`
`496`	`496`	`documentation="KV-cache usage. 1 means 100 percent usage.",`
	`497`	`+ multiprocess_mode="mostrecent",`
`497`	`498`	`labelnames=labelnames,`
`498`	`499`	`)`
`499`	`500`	`self.gauge_kv_cache_usage = make_per_engine(`