[Core] Cache vllm_is_batch_invariant (#28304)

lgeiger · web-flow · commit ac0bb2c3075f · 2025-11-12T05:03:01.000Z
Signed-off-by: Lukas Geiger &lt;lukas.geiger94@gmail.com&gt;
diff --git a/vllm/model_executor/layers/batch_invariant.py b/vllm/model_executor/layers/batch_invariant.py
@@ -4,6 +4,7 @@
 import os
 from collections import namedtuple
 from collections.abc import Callable
+from functools import cache
 from typing import Any
 
 import torch
@@ -857,6 +858,7 @@ def get_batch_invariant_attention_block_size() -> AttentionBlockSize:
     return AttentionBlockSize(block_m=16, block_n=16)
 
 
+@cache
 def vllm_is_batch_invariant():
     env_key = "VLLM_BATCH_INVARIANT"
     is_overridden = False