[1/2][lmcache connector] clean up lmcache multi-process adapter (#31838)

Signed-off-by: ApostaC <yihua98@uchicago.edu>
2026-01-06 18:02:42 -08:00
parent 873480d133
commit 5b833be49e
2 changed files with 23 additions and 7 deletions
--- a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/multi_process_adapter.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/multi_process_adapter.py
@@ -95,6 +95,10 @@ class LMCacheMPSchedulerAdapter:
            kv_rank: The kv rank used for LMCache keys
            vllm_block_size: The block size used in vLLM
        """
        logger.warning(
            "Importing LMCacheMPSchedulerAdapter is deprecated. "
            "Please update your LMCache to the latest version."
        )
        self.mq_client = MessageQueueClient(server_url, context)
        # Request futures
@@ -147,7 +151,7 @@ class LMCacheMPSchedulerAdapter:
        """
        return self.blocks_in_chunk
-    def _cleanup_lookup_result(self, request_id: str) -> None:
+    def cleanup_lookup_result(self, request_id: str) -> None:
        """
        Clean up lookup future for a finished request to prevent memory leak.
        Args:
@@ -176,6 +180,10 @@ class LMCacheMPWorkerAdapter:
        kv_rank: int,
        vllm_block_size: int,
    ):
        logger.warning(
            "Importing LMCacheMPWorkerAdapter is deprecated. "
            "Please update your LMCache to the latest version."
        )
        self.mq_client = MessageQueueClient(server_url, context)
        # Instance id for GPU worker
--- a/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_mp_connector.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_mp_connector.py
@@ -17,16 +17,24 @@ from vllm.distributed.kv_transfer.kv_connector.v1.base import (
    KVConnectorMetadata,
    KVConnectorRole,
 )
 from vllm.distributed.kv_transfer.kv_connector.v1.lmcache_integration import (
    LMCacheMPSchedulerAdapter,
    LMCacheMPWorkerAdapter,
    LoadStoreOp,
 )
 from vllm.v1.core.sched.output import SchedulerOutput
 from vllm.v1.outputs import KVConnectorOutput
 from vllm.v1.request import RequestStatus
 from vllm.v1.utils import ConstantList
 try:
    from lmcache.integration.vllm.vllm_multi_process_adapter import (
        LMCacheMPSchedulerAdapter,
        LMCacheMPWorkerAdapter,
        LoadStoreOp,
    )
 except ImportError:
    from vllm.distributed.kv_transfer.kv_connector.v1.lmcache_integration import (
        LMCacheMPSchedulerAdapter,
        LMCacheMPWorkerAdapter,
        LoadStoreOp,
    )
 if TYPE_CHECKING:
    from vllm.config import VllmConfig
    from vllm.distributed.kv_events import KVCacheEvent
@@ -702,7 +710,7 @@ class LMCacheMPConnector(KVConnectorBase_V1):
                else LMCacheMPRequestState.READY
            )
            # Clean up lookup future in scheduler adapter
-            self.scheduler_adapter._cleanup_lookup_result(request.request_id)
+            self.scheduler_adapter.cleanup_lookup_result(request.request_id)
    def build_connector_meta(
        self, scheduler_output: SchedulerOutput