[V0 Deprecation] Remove pooling model support in V0 (#23434)

Signed-off-by: Woosuk Kwon <woosuk.kwon@berkeley.edu> Signed-off-by: Max de Bayser <mbayser@br.ibm.com> Co-authored-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>
2025-08-29 04:04:02 -03:00
parent 934bebf192
commit 2554b27baa
38 changed files with 99 additions and 808 deletions
--- a/vllm/inputs/data.py
+++ b/vllm/inputs/data.py
@@ -174,9 +174,6 @@ class TokenInputs(TypedDict):
    prompt_token_ids: list[int]
    """The token IDs of the prompt."""

-    token_type_ids: NotRequired[list[int]]
-    """The token type IDs of the prompt."""
-
    prompt: NotRequired[str]
    """
    The original prompt text corresponding to the token IDs, if available.
@@ -190,7 +187,6 @@ class TokenInputs(TypedDict):

 def token_inputs(
    prompt_token_ids: list[int],
-    token_type_ids: Optional[list[int]] = None,
    prompt: Optional[str] = None,
    cache_salt: Optional[str] = None,
 ) -> TokenInputs:
@@ -200,8 +196,6 @@ def token_inputs(

    if prompt is not None:
        inputs["prompt"] = prompt
-    if token_type_ids is not None:
-        inputs["token_type_ids"] = token_type_ids
    if cache_salt is not None:
        inputs["cache_salt"] = cache_salt

--- a/vllm/inputs/preprocess.py
+++ b/vllm/inputs/preprocess.py
@@ -355,7 +355,6 @@ class InputPreprocessor:
        mm_hash_overrides: Optional[dict[str, list[str]]] = None,
    ) -> Union[TokenInputs, MultiModalInputs]:
        prompt_token_ids = parsed_content["prompt_token_ids"]
-        token_type_ids = parsed_content.get("token_type_ids")

        inputs: Union[TokenInputs, MultiModalInputs]
        if multi_modal_data := parsed_content.get("multi_modal_data"):
@@ -368,10 +367,7 @@ class InputPreprocessor:
                mm_hash_overrides=mm_hash_overrides,
            )
        else:
-            inputs = token_inputs(
-                prompt_token_ids=prompt_token_ids,
-                token_type_ids=token_type_ids,
-            )
+            inputs = token_inputs(prompt_token_ids=prompt_token_ids)

        if cache_salt := parsed_content.get("cache_salt"):
            inputs["cache_salt"] = cache_salt
@@ -387,7 +383,6 @@ class InputPreprocessor:
        mm_hash_overrides: Optional[dict[str, list[str]]] = None,
    ) -> Union[TokenInputs, MultiModalInputs]:
        prompt_token_ids = parsed_content["prompt_token_ids"]
-        token_type_ids = parsed_content.get("token_type_ids")

        inputs: Union[TokenInputs, MultiModalInputs]
        if multi_modal_data := parsed_content.get("multi_modal_data"):
@@ -400,10 +395,7 @@ class InputPreprocessor:
                mm_hash_overrides=mm_hash_overrides,
            )
        else:
-            inputs = token_inputs(
-                prompt_token_ids=prompt_token_ids,
-                token_type_ids=token_type_ids,
-            )
+            inputs = token_inputs(prompt_token_ids=prompt_token_ids, )

        if cache_salt := parsed_content.get("cache_salt"):
            inputs["cache_salt"] = cache_salt