[Core] Support Lora lineage and base model metadata management (#6315)

2024-09-19 23:20:56 -07:00
parent 9e5ec35b1f
commit 260d40b5ea
15 changed files with 337 additions and 45 deletions
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -50,6 +50,7 @@ from vllm.entrypoints.openai.protocol import (ChatCompletionRequest,
 from vllm.entrypoints.openai.serving_chat import OpenAIServingChat
 from vllm.entrypoints.openai.serving_completion import OpenAIServingCompletion
 from vllm.entrypoints.openai.serving_embedding import OpenAIServingEmbedding
+from vllm.entrypoints.openai.serving_engine import BaseModelPath
 from vllm.entrypoints.openai.serving_tokenization import (
    OpenAIServingTokenization)
 from vllm.logger import init_logger
@@ -476,13 +477,18 @@ def init_app_state(
    else:
        request_logger = RequestLogger(max_log_len=args.max_log_len)

+    base_model_paths = [
+        BaseModelPath(name=name, model_path=args.model)
+        for name in served_model_names
+    ]
+
    state.engine_client = engine_client
    state.log_stats = not args.disable_log_stats

    state.openai_serving_chat = OpenAIServingChat(
        engine_client,
        model_config,
-        served_model_names,
+        base_model_paths,
        args.response_role,
        lora_modules=args.lora_modules,
        prompt_adapters=args.prompt_adapters,
@@ -494,7 +500,7 @@ def init_app_state(
    state.openai_serving_completion = OpenAIServingCompletion(
        engine_client,
        model_config,
-        served_model_names,
+        base_model_paths,
        lora_modules=args.lora_modules,
        prompt_adapters=args.prompt_adapters,
        request_logger=request_logger,
@@ -503,13 +509,13 @@ def init_app_state(
    state.openai_serving_embedding = OpenAIServingEmbedding(
        engine_client,
        model_config,
-        served_model_names,
+        base_model_paths,
        request_logger=request_logger,
    )
    state.openai_serving_tokenization = OpenAIServingTokenization(
        engine_client,
        model_config,
-        served_model_names,
+        base_model_paths,
        lora_modules=args.lora_modules,
        request_logger=request_logger,
        chat_template=args.chat_template,