[Bugfix][V1] Fix bug from putting llm_engine.model_executor in a background process (#15367)

Signed-off-by: wwl2755 <wangwenlong2755@gmail.com>
2025-04-03 02:32:10 -05:00
parent 5e125e74d1
commit 463bbb1835
5 changed files with 167 additions and 4 deletions
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -269,6 +269,20 @@ class Worker(WorkerBase):
        # worker will always be healthy as long as it's running.
        return

+    def save_sharded_state(
+        self,
+        path: str,
+        pattern: Optional[str] = None,
+        max_size: Optional[int] = None,
+    ) -> None:
+        from vllm.model_executor.model_loader.loader import ShardedStateLoader
+        ShardedStateLoader.save_model(
+            self.model_runner.model,
+            path,
+            pattern=pattern,
+            max_size=max_size,
+        )
+

 def init_worker_distributed_environment(
    parallel_config: ParallelConfig,