Update finished KV transfer state after every step (#532)

wuxun-zhang · web-flow · commit 3c3a7a907dfe · 2025-11-06T21:18:14.000-08:00
In P/D disaggregation scenario, most of time are decoding forward runs
in decode instances, we need update finished KV transfer states after
decode forward as well (not only prefill forward). Otherwise, even KV
transfer is already finished in prefill instance, while decode instance
cannot get finished state in time (switching state from
`WAITING_FOR_REMOTE_KVS` to `WAITING`) which will increase TTFT.

Signed-off-by: Wuxun Zhang &lt;wuxun.zhang@intel.com&gt;
diff --git a/vllm_gaudi/v1/worker/hpu_model_runner.py b/vllm_gaudi/v1/worker/hpu_model_runner.py
@@ -3137,7 +3137,6 @@ def execute_model(
                     self.profiler.record_counter(self.event_start, counters)
             if not warmup_mode:
                 self.maybe_wait_for_kv_save()
-            finished_sending, finished_recving = (self.get_finished_kv_transfers(scheduler_output))
 
             if self.is_driver_worker and self.profiler.enabled:
                 self.profiler_counter_helper.reset_prompt_seq_stats()
@@ -3377,6 +3376,9 @@ def execute_model(
         all_req_ids = pd_info.decode_req_ids + pd_info.prompt_req_ids
         logprobs = None
 
+        if not warmup_mode:
+            finished_sending, finished_recving = self.get_finished_kv_transfers(scheduler_output)
+
         if self.use_async_scheduling:
             model_runner_output = ModelRunnerOutput(
                 req_ids=req_ids_output_copy,  # CHECK