preload heavy modules when mp method is forkserver (#22214)

Signed-off-by: Lionel Villard <villard@us.ibm.com>
2025-08-06 23:33:24 -04:00
parent 14bcf93a6a
commit ad6c655dde
2 changed files with 13 additions and 1 deletions
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -8,6 +8,7 @@ import importlib
 import inspect
 import json
 import multiprocessing
+import multiprocessing.forkserver as forkserver
 import os
 import signal
 import socket
@@ -155,6 +156,15 @@ async def build_async_engine_client(
    client_config: Optional[dict[str, Any]] = None,
 ) -> AsyncIterator[EngineClient]:

+    if os.getenv("VLLM_WORKER_MULTIPROC_METHOD") == "forkserver":
+        # The executor is expected to be mp.
+        # Pre-import heavy modules in the forkserver process
+        logger.debug("Setup forkserver with pre-imports")
+        multiprocessing.set_start_method('forkserver')
+        multiprocessing.set_forkserver_preload(["vllm.v1.engine.async_llm"])
+        forkserver.ensure_running()
+        logger.debug("Forkserver setup complete!")
+
    # Context manager to handle engine_client lifecycle
    # Ensures everything is shutdown and cleaned up on error/exit
    engine_args = AsyncEngineArgs.from_cli_args(args)