[Perf] API-server scaleout with many-to-many server-engine comms (#17546)

2025-05-30 08:17:00 -07:00
parent 84ec470fca
commit 2dbe8c0774
26 changed files with 1828 additions and 436 deletions
--- a/vllm/v1/request.py
+++ b/vllm/v1/request.py
@@ -26,12 +26,13 @@ class Request:
        multi_modal_placeholders: Optional[list[PlaceholderRange]],
        sampling_params: SamplingParams,
        eos_token_id: Optional[int],
-        arrival_time: float,
+        client_index: int = 0,
        lora_request: Optional["LoRARequest"] = None,
        structured_output_request: Optional["StructuredOutputRequest"] = None,
        cache_salt: Optional[str] = None,
    ) -> None:
        self.request_id = request_id
+        self.client_index = client_index
        self.sampling_params = sampling_params
        # Because of LoRA, the eos token id can be different for each request.
        self.eos_token_id = eos_token_id
@@ -90,13 +91,13 @@ class Request:

        return cls(
            request_id=request.request_id,
+            client_index=request.client_index,
            prompt_token_ids=request.prompt_token_ids,
            multi_modal_inputs=request.mm_inputs,
            multi_modal_hashes=request.mm_hashes,
            multi_modal_placeholders=request.mm_placeholders,
            sampling_params=request.sampling_params,
            eos_token_id=request.eos_token_id,
-            arrival_time=request.arrival_time,
            lora_request=request.lora_request,
            structured_output_request=StructuredOutputRequest(
                sampling_params=request.sampling_params),