[PerfFix] Avoid separate thread for MP executor shm spin (#28012)

Signed-off-by: Nick Hill <nhill@redhat.com>
2025-11-04 08:33:55 -08:00
parent 05cae69f0f
commit c9f66da8fd
9 changed files with 145 additions and 133 deletions
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -510,7 +510,7 @@ class Worker(WorkerBase):

    @torch.inference_mode()
    def sample_tokens(
-        self, grammar_output: "GrammarOutput"
+        self, grammar_output: "GrammarOutput | None"
    ) -> ModelRunnerOutput | AsyncModelRunnerOutput:
        return self.model_runner.sample_tokens(grammar_output)