[Bugfix] Allow 64-bit integer values for LoRA IDs to avoid overflow/truncation (#27876)

Signed-off-by: Madeesh Kannan <shadeMe@users.noreply.github.com>
2025-10-31 17:58:42 +01:00
parent 0384aa7150
commit 675704ac01
2 changed files with 2 additions and 2 deletions
--- a/vllm/v1/worker/gpu_input_batch.py
+++ b/vllm/v1/worker/gpu_input_batch.py
@@ -204,7 +204,7 @@ class InputBatch:
        self.num_accepted_tokens_cpu = self.num_accepted_tokens_cpu_tensor.numpy()

        # lora related
-        self.request_lora_mapping = np.zeros((self.max_num_reqs,), dtype=np.int32)
+        self.request_lora_mapping = np.zeros((self.max_num_reqs,), dtype=np.int64)
        self.lora_id_to_request_ids: dict[int, set[str]] = {}
        self.lora_id_to_lora_request: dict[int, LoRARequest] = {}

--- a/vllm/v1/worker/tpu_input_batch.py
+++ b/vllm/v1/worker/tpu_input_batch.py
@@ -139,7 +139,7 @@ class InputBatch:
        self.min_tokens: dict[int, tuple[int, set[int]]] = {}

        # lora related
-        self.request_lora_mapping = np.zeros((self.max_num_reqs,), dtype=np.int32)
+        self.request_lora_mapping = np.zeros((self.max_num_reqs,), dtype=np.int64)
        self.lora_id_to_request_ids: dict[int, set[str]] = {}
        self.lora_id_to_lora_request: dict[int, LoRARequest] = {}