[Config][Disaggregated] Add timeout configuration for the torch.store and add KVTransferConfig.kv_connector_extra_config (#14367)

Signed-off-by: Mathis Felardos <mathis@mistral.ai>
2025-03-13 04:15:20 +01:00
parent 128bf75283
commit 1bd32bc8dd
4 changed files with 22 additions and 11 deletions
--- a/vllm/distributed/utils.py
+++ b/vllm/distributed/utils.py
@@ -5,6 +5,7 @@
 # https://github.com/NVIDIA/Megatron-LM/blob/main/megatron/core/tensor_parallel/utils.py
 # Copyright (c) 2022, NVIDIA CORPORATION. All rights reserved.
 import dataclasses
+import datetime
 import pickle
 import time
 from collections import deque
@@ -217,6 +218,7 @@ class StatelessProcessGroup:
        rank: int,
        world_size: int,
        data_expiration_seconds: int = 3600,
+        store_timeout: int = 300,
    ) -> "StatelessProcessGroup":
        """A replacement for `torch.distributed.init_process_group` that does not
        pollute the global state.
@@ -238,6 +240,7 @@ class StatelessProcessGroup:
            port=port,
            world_size=world_size,
            is_master=(rank == 0),
+            timeout=datetime.timedelta(seconds=store_timeout),
        )

        return StatelessProcessGroup(