[Bugfix] - Add Trace Headers to Beam Search Path (vllm-project#29100)

dsuhinin · web-flow · commit 4d01b6428448 · 2025-11-20T20:00:33.000Z
Signed-off-by: dsuhinin &lt;suhinin.dmitriy@gmail.com&gt;
diff --git a/vllm/entrypoints/openai/serving_chat.py b/vllm/entrypoints/openai/serving_chat.py
@@ -319,6 +319,7 @@ async def create_chat_completion(
                         request_id=request_id,
                         params=sampling_params,
                         lora_request=lora_request,
+                        trace_headers=trace_headers,
                     )
                 else:
                     engine_request, tokenization_kwargs = await self._process_inputs(
diff --git a/vllm/entrypoints/openai/serving_completion.py b/vllm/entrypoints/openai/serving_completion.py
@@ -216,6 +216,7 @@ async def create_completion(
                         request_id=request_id,
                         params=sampling_params,
                         lora_request=lora_request,
+                        trace_headers=trace_headers,
                     )
                 else:
                     engine_request, tokenization_kwargs = await self._process_inputs(
diff --git a/vllm/entrypoints/openai/serving_engine.py b/vllm/entrypoints/openai/serving_engine.py
@@ -343,6 +343,7 @@ async def beam_search(
         request_id: str,
         params: BeamSearchParams,
         lora_request: LoRARequest | None = None,
+        trace_headers: Mapping[str, str] | None = None,
     ) -> AsyncGenerator[RequestOutput, None]:
         beam_width = params.beam_width
         max_tokens = params.max_tokens
@@ -437,6 +438,7 @@ async def beam_search(
                             beam_search_params,
                             request_id_item,
                             lora_request=lora_req,
+                            trace_headers=trace_headers,
                         )
                     )
                 )

Original file line number	Diff line number	Diff line change
`@@ -319,6 +319,7 @@ async def create_chat_completion(`
`319`	`319`	`request_id=request_id,`
`320`	`320`	`params=sampling_params,`
`321`	`321`	`lora_request=lora_request,`
	`322`	`+ trace_headers=trace_headers,`
`322`	`323`	`)`
`323`	`324`	`else:`
`324`	`325`	`engine_request, tokenization_kwargs = await self._process_inputs(`
Original file line number	Diff line number	Diff line change
`@@ -216,6 +216,7 @@ async def create_completion(`
`216`	`216`	`request_id=request_id,`
`217`	`217`	`params=sampling_params,`
`218`	`218`	`lora_request=lora_request,`
	`219`	`+ trace_headers=trace_headers,`
`219`	`220`	`)`
`220`	`221`	`else:`
`221`	`222`	`engine_request, tokenization_kwargs = await self._process_inputs(`
Original file line number	Diff line number	Diff line change
`@@ -343,6 +343,7 @@ async def beam_search(`
`343`	`343`	`request_id: str,`
`344`	`344`	`params: BeamSearchParams,`
`345`	`345`	`lora_request: LoRARequest \| None = None,`
	`346`	`+ trace_headers: Mapping[str, str] \| None = None,`
`346`	`347`	`) -> AsyncGenerator[RequestOutput, None]:`
`347`	`348`	`beam_width = params.beam_width`
`348`	`349`	`max_tokens = params.max_tokens`
`@@ -437,6 +438,7 @@ async def beam_search(`
`437`	`438`	`beam_search_params,`
`438`	`439`	`request_id_item,`
`439`	`440`	`lora_request=lora_req,`
	`441`	`+ trace_headers=trace_headers,`
`440`	`442`	`)`
`441`	`443`	`)`
`442`	`444`	`)`