[Frontend] Multimodal support in offline chat (#8098)

2024-09-04 13:22:17 +08:00
parent 2be8ec6e71
commit 855c262a6b
8 changed files with 356 additions and 112 deletions
--- a/vllm/entrypoints/openai/serving_tokenization.py
+++ b/vllm/entrypoints/openai/serving_tokenization.py
@@ -4,7 +4,7 @@ from vllm.config import ModelConfig
 from vllm.engine.protocol import AsyncEngineClient
 from vllm.entrypoints.chat_utils import (apply_chat_template,
                                         load_chat_template,
-                                         parse_chat_messages)
+                                         parse_chat_messages_futures)
 from vllm.entrypoints.logger import RequestLogger
 # yapf conflicts with isort for this block
 # yapf: disable
@@ -65,10 +65,11 @@ class OpenAIServingTokenization(OpenAIServing):
        if isinstance(request, TokenizeChatRequest):
            model_config = self.model_config

-            conversation, mm_data_future = parse_chat_messages(
+            conversation, mm_data_future = parse_chat_messages_futures(
                request.messages, model_config, tokenizer)

-            if mm_data_future:
+            mm_data = await mm_data_future
+            if mm_data:
                logger.warning(
                    "Multi-modal inputs are ignored during tokenization")