[Bucketing] Prompt with 0 min and max context blocks (#534)

adobrzyn · Copilot · web-flow · commit f7050a9ea2ba · 2025-11-06T09:36:29.000+01:00
Signed-off-by: Agata Dobrzyniewicz &lt;adobrzyniewicz@habana.ai&gt;
Signed-off-by: Agata Dobrzyniewicz &lt;160237065+adobrzyn@users.noreply.github.com&gt;
Co-authored-by: Copilot &lt;175728472+Copilot@users.noreply.github.com&gt;
diff --git a/vllm_gaudi/extension/bucketing/linear.py b/vllm_gaudi/extension/bucketing/linear.py
@@ -132,6 +132,8 @@ def warmup_range(config: Tuple[int, int, int]):
                           "batch size. If you want to skip warmup, "
                           "set VLLM_SKIP_WARMUP=true")
     if add_zero_bucket:
+        if bmin == 0 and bmax == 0:
+            return [0]
         bmin = bstep
     base = itertools.repeat(2)
     ramp_up_acc = itertools.accumulate(base, func=operator.mul, initial=bmin)