[Core] Remove tokenizer group in vLLM (#24078)

Signed-off-by: Zhuohan Li <zhuohan123@gmail.com>
2025-09-17 01:42:59 -07:00
parent c15309a730
commit 6c47f6bfa4
49 changed files with 276 additions and 934 deletions
--- a/vllm/inputs/preprocess.py
+++ b/vllm/inputs/preprocess.py
@@ -9,13 +9,11 @@ from typing_extensions import assert_never

 from vllm.config import ModelConfig
 from vllm.logger import init_logger
-from vllm.lora.request import LoRARequest
 from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
 from vllm.multimodal.cache import BaseMultiModalProcessorCache
 from vllm.multimodal.inputs import (MultiModalDataDict, MultiModalEncDecInputs,
                                    MultiModalInputs, MultiModalUUIDDict)
 from vllm.transformers_utils.tokenizer import AnyTokenizer
-from vllm.transformers_utils.tokenizer_group import TokenizerGroup

 from .data import (DecoderOnlyInputs, EmbedsInputs, EmbedsPrompt,
                   EncoderDecoderInputs, ProcessorInputs, PromptType,
@@ -31,7 +29,7 @@ class InputPreprocessor:
    def __init__(
        self,
        model_config: ModelConfig,
-        tokenizer: Optional[TokenizerGroup],
+        tokenizer: Optional[AnyTokenizer],
        mm_registry: MultiModalRegistry = MULTIMODAL_REGISTRY,
        mm_processor_cache: Optional[BaseMultiModalProcessorCache] = None,
    ) -> None:
@@ -42,32 +40,28 @@ class InputPreprocessor:
        self.mm_registry = mm_registry
        self.mm_processor_cache = mm_processor_cache

-    def get_tokenizer_group(self) -> TokenizerGroup:
+    def get_tokenizer(self) -> AnyTokenizer:
        if self.tokenizer is None:
            raise ValueError("You cannot pass text prompts when "
                             "`skip_tokenizer_init` is True")

        return self.tokenizer

-    def get_bos_token_id(self,
-                         lora_request: Optional[LoRARequest] = None
-                         ) -> Optional[int]:
+    def get_bos_token_id(self) -> Optional[int]:
        if self.tokenizer is None:
            logger.warning("Using None for BOS token id because tokenizer "
                           "is not initialized")
            return None

-        return self.tokenizer.get_lora_tokenizer(lora_request).bos_token_id
+        return self.tokenizer.bos_token_id

-    def get_eos_token_id(self,
-                         lora_request: Optional[LoRARequest] = None
-                         ) -> Optional[int]:
+    def get_eos_token_id(self) -> Optional[int]:
        if self.tokenizer is None:
            logger.warning("Using None for EOS token id because tokenizer "
                           "is not initialized")
            return None

-        return self.tokenizer.get_lora_tokenizer(lora_request).eos_token_id
+        return self.tokenizer.eos_token_id

    def get_decoder_start_token_id(self) -> Optional[int]:
        """
@@ -190,14 +184,13 @@ class InputPreprocessor:
    def _tokenize_prompt(
        self,
        prompt: str,
-        lora_request: Optional[LoRARequest],
        tokenization_kwargs: Optional[dict[str, Any]] = None,
    ) -> list[int]:
        """
        Apply the model's tokenizer to a text prompt, returning the
        corresponding token IDs.
        """
-        tokenizer = self.get_tokenizer_group()
+        tokenizer = self.get_tokenizer()
        tokenization_kwargs = self._get_tokenization_kw(tokenization_kwargs)

        encoder_config = self.model_config.encoder_config
@@ -205,50 +198,39 @@ class InputPreprocessor:
        if encoder_config and encoder_config.get("do_lower_case", False):
            prompt = prompt.lower()

-        return tokenizer.encode(prompt=prompt,
-                                lora_request=lora_request,
-                                **tokenization_kwargs)
+        return tokenizer.encode(prompt, **tokenization_kwargs)

    async def _tokenize_prompt_async(
        self,
        prompt: str,
-        lora_request: Optional[LoRARequest],
        tokenization_kwargs: Optional[dict[str, Any]] = None,
    ) -> list[int]:
        """
        Async version of
        [`_tokenize_prompt`][vllm.inputs.preprocess.InputPreprocessor._tokenize_prompt].
        """
-        tokenizer = self.get_tokenizer_group()
+        tokenizer = self.get_tokenizer()
        tokenization_kwargs = self._get_tokenization_kw(tokenization_kwargs)

-        return await tokenizer.encode_async(prompt=prompt,
-                                            lora_request=lora_request,
-                                            **tokenization_kwargs)
+        return tokenizer.encode(prompt, **tokenization_kwargs)

-    def _get_mm_tokenizer(
-        self,
-        lora_request: Optional[LoRARequest],
-    ) -> AnyTokenizer:
+    def _get_mm_tokenizer(self) -> AnyTokenizer:
        # PrithviGeoSpatialMAE needs to be initialized without a tokenizer
        # while using also multi-modal input
        if not self.tokenizer:
            return cast(AnyTokenizer, object())  # Dummy

-        tokenizer_group = self.get_tokenizer_group()
-        return tokenizer_group.get_lora_tokenizer(lora_request)
+        tokenizer = self.get_tokenizer()
+        return tokenizer

-    async def _get_mm_tokenizer_async(
-        self,
-        lora_request: Optional[LoRARequest],
-    ) -> AnyTokenizer:
+    async def _get_mm_tokenizer_async(self) -> AnyTokenizer:
        # PrithviGeoSpatialMAE needs to be initialized without a tokenizer
        # while using also multi-modal input
        if not self.tokenizer:
            return cast(AnyTokenizer, object())  # Dummy

-        tokenizer_group = self.get_tokenizer_group()
-        return await tokenizer_group.get_lora_tokenizer_async(lora_request)
+        tokenizer = self.get_tokenizer()
+        return tokenizer

    def _process_multimodal(
        self,
@@ -256,7 +238,6 @@ class InputPreprocessor:
        mm_data: MultiModalDataDict,
        mm_processor_kwargs: Optional[Mapping[str, object]],
        tokenization_kwargs: Optional[dict[str, Any]] = None,
-        lora_request: Optional[LoRARequest] = None,
        *,
        mm_uuids: Optional[MultiModalUUIDDict] = None,
    ) -> MultiModalInputs:
@@ -264,7 +245,7 @@ class InputPreprocessor:
        Apply the model's multi-modal processor to a multi-modal prompt,
        returning the corresponding token IDs and metadata.
        """
-        tokenizer = self._get_mm_tokenizer(lora_request)
+        tokenizer = self._get_mm_tokenizer()

        mm_processor = self.mm_registry.create_processor(
            self.model_config,
@@ -299,7 +280,6 @@ class InputPreprocessor:
        mm_data: MultiModalDataDict,
        mm_processor_kwargs: Optional[Mapping[str, object]],
        tokenization_kwargs: Optional[dict[str, Any]] = None,
-        lora_request: Optional[LoRARequest] = None,
        *,
        mm_uuids: Optional[MultiModalUUIDDict] = None,
    ) -> MultiModalInputs:
@@ -307,7 +287,7 @@ class InputPreprocessor:
        Async version of
        [`_process_multimodal`][vllm.inputs.preprocess.InputPreprocessor._process_multimodal].
        """
-        tokenizer = await self._get_mm_tokenizer_async(lora_request)
+        tokenizer = await self._get_mm_tokenizer_async()

        mm_processor = self.mm_registry.create_processor(
            self.model_config,
@@ -386,7 +366,6 @@ class InputPreprocessor:
        self,
        parsed_content: TokensPrompt,
        tokenization_kwargs: Optional[dict[str, Any]] = None,
-        lora_request: Optional[LoRARequest] = None,
        *,
        mm_uuids: Optional[MultiModalUUIDDict] = None,
    ) -> Union[TokenInputs, MultiModalInputs]:
@@ -400,7 +379,6 @@ class InputPreprocessor:
                multi_modal_data,
                parsed_content.get("mm_processor_kwargs"),
                tokenization_kwargs=tokenization_kwargs,
-                lora_request=lora_request,
                mm_uuids=mm_uuids,
            )
        else:
@@ -415,7 +393,6 @@ class InputPreprocessor:
        self,
        parsed_content: TokensPrompt,
        tokenization_kwargs: Optional[dict[str, Any]] = None,
-        lora_request: Optional[LoRARequest] = None,
        *,
        mm_uuids: Optional[MultiModalUUIDDict] = None,
    ) -> Union[TokenInputs, MultiModalInputs]:
@@ -429,7 +406,6 @@ class InputPreprocessor:
                multi_modal_data,
                parsed_content.get("mm_processor_kwargs"),
                tokenization_kwargs=tokenization_kwargs,
-                lora_request=lora_request,
                mm_uuids=mm_uuids,
            )
        else:
@@ -444,7 +420,6 @@ class InputPreprocessor:
        self,
        parsed_content: TextPrompt,
        tokenization_kwargs: Optional[dict[str, Any]] = None,
-        lora_request: Optional[LoRARequest] = None,
        *,
        mm_uuids: Optional[MultiModalUUIDDict] = None,
    ) -> Union[TokenInputs, MultiModalInputs]:
@@ -457,13 +432,11 @@ class InputPreprocessor:
                multi_modal_data,
                parsed_content.get("mm_processor_kwargs"),
                tokenization_kwargs=tokenization_kwargs,
-                lora_request=lora_request,
                mm_uuids=mm_uuids,
            )
        else:
            prompt_token_ids = self._tokenize_prompt(
                prompt_text,
-                lora_request=lora_request,
                tokenization_kwargs=tokenization_kwargs,
            )
            inputs = token_inputs(
@@ -480,7 +453,6 @@ class InputPreprocessor:
        self,
        parsed_content: TextPrompt,
        tokenization_kwargs: Optional[dict[str, Any]] = None,
-        lora_request: Optional[LoRARequest] = None,
        *,
        mm_uuids: Optional[MultiModalUUIDDict] = None,
    ) -> Union[TokenInputs, MultiModalInputs]:
@@ -493,13 +465,11 @@ class InputPreprocessor:
                multi_modal_data,
                parsed_content.get("mm_processor_kwargs"),
                tokenization_kwargs=tokenization_kwargs,
-                lora_request=lora_request,
                mm_uuids=mm_uuids,
            )
        else:
            prompt_token_ids = await self._tokenize_prompt_async(
                prompt_text,
-                lora_request=lora_request,
                tokenization_kwargs=tokenization_kwargs,
            )
            inputs = token_inputs(
@@ -516,7 +486,6 @@ class InputPreprocessor:
        self,
        prompt: SingletonPrompt,
        tokenization_kwargs: Optional[dict[str, Any]] = None,
-        lora_request: Optional[LoRARequest] = None,
        *,
        mm_uuids: Optional[MultiModalUUIDDict] = None,
    ) -> SingletonInputs:
@@ -526,7 +495,6 @@ class InputPreprocessor:
        Arguments:

        * prompt: single encoder or decoder input prompt
-        * lora_request: this is only valid for decoder prompts

        Returns:

@@ -539,21 +507,18 @@ class InputPreprocessor:
        if parsed["type"] == "tokens":
            return self._process_tokens(
                parsed["content"],
-                lora_request=lora_request,
                mm_uuids=mm_uuids,
            )
        if parsed["type"] == "text":
            return self._process_text(
                parsed["content"],
                tokenization_kwargs=tokenization_kwargs,
-                lora_request=lora_request,
                mm_uuids=mm_uuids,
            )
        if parsed["type"] == "str":
            return self._process_text(
                TextPrompt(prompt=parsed["content"]),
                tokenization_kwargs=tokenization_kwargs,
-                lora_request=lora_request,
                mm_uuids=mm_uuids,
            )

@@ -563,7 +528,6 @@ class InputPreprocessor:
        self,
        prompt: SingletonPrompt,
        tokenization_kwargs: Optional[dict[str, Any]] = None,
-        lora_request: Optional[LoRARequest] = None,
        *,
        mm_uuids: Optional[MultiModalUUIDDict] = None,
    ) -> SingletonInputs:
@@ -578,21 +542,18 @@ class InputPreprocessor:
        if parsed["type"] == "tokens":
            return await self._process_tokens_async(
                parsed["content"],
-                lora_request=lora_request,
                mm_uuids=mm_uuids,
            )
        if parsed["type"] == "text":
            return await self._process_text_async(
                parsed["content"],
                tokenization_kwargs=tokenization_kwargs,
-                lora_request=lora_request,
                mm_uuids=mm_uuids,
            )
        if parsed["type"] == "str":
            return await self._process_text_async(
                TextPrompt(prompt=parsed["content"]),
                tokenization_kwargs=tokenization_kwargs,
-                lora_request=lora_request,
                mm_uuids=mm_uuids,
            )

@@ -844,7 +805,6 @@ class InputPreprocessor:
        self,
        prompt: SingletonPrompt,
        tokenization_kwargs: Optional[dict[str, Any]] = None,
-        lora_request: Optional[LoRARequest] = None,
        *,
        mm_uuids: Optional[MultiModalUUIDDict] = None,
    ) -> DecoderOnlyInputs:
@@ -856,7 +816,6 @@ class InputPreprocessor:
        Arguments:

        * prompt: input prompt
-        * lora_request

        Returns:

@@ -866,7 +825,6 @@ class InputPreprocessor:
        prompt_comps = self._prompt_to_llm_inputs(
            prompt,
            tokenization_kwargs=tokenization_kwargs,
-            lora_request=lora_request,
            mm_uuids=mm_uuids,
        )

@@ -876,7 +834,6 @@ class InputPreprocessor:
        self,
        prompt: SingletonPrompt,
        tokenization_kwargs: Optional[dict[str, Any]] = None,
-        lora_request: Optional[LoRARequest] = None,
        *,
        mm_uuids: Optional[MultiModalUUIDDict] = None,
    ) -> DecoderOnlyInputs:
@@ -887,7 +844,6 @@ class InputPreprocessor:
        prompt_comps = await self._prompt_to_llm_inputs_async(
            prompt,
            tokenization_kwargs=tokenization_kwargs,
-            lora_request=lora_request,
            mm_uuids=mm_uuids,
        )

@@ -897,7 +853,6 @@ class InputPreprocessor:
        self,
        prompt: PromptType,
        tokenization_kwargs: Optional[dict[str, Any]] = None,
-        lora_request: Optional[LoRARequest] = None,
        *,
        mm_uuids: Optional[MultiModalUUIDDict] = None,
    ) -> ProcessorInputs:
@@ -919,7 +874,6 @@ class InputPreprocessor:
        return self._process_decoder_only_prompt(
            prompt,
            tokenization_kwargs=tokenization_kwargs,
-            lora_request=lora_request,
            mm_uuids=mm_uuids,
        )

@@ -927,7 +881,6 @@ class InputPreprocessor:
        self,
        prompt: PromptType,
        tokenization_kwargs: Optional[dict[str, Any]] = None,
-        lora_request: Optional[LoRARequest] = None,
        *,
        mm_uuids: Optional[MultiModalUUIDDict] = None,
    ) -> ProcessorInputs:
@@ -952,7 +905,6 @@ class InputPreprocessor:
        return await self._process_decoder_only_prompt_async(
            prompt,
            tokenization_kwargs=tokenization_kwargs,
-            lora_request=lora_request,
            mm_uuids=mm_uuids,
        )