[Model] Update pooling model interface (#21058)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
2025-07-18 00:05:40 +08:00
parent 9fb2d22032
commit 90bd2ab6e3
17 changed files with 247 additions and 345 deletions
--- a/vllm/model_executor/models/adapters.py
+++ b/vllm/model_executor/models/adapters.py
@@ -2,7 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project

 from collections.abc import Iterable
-from typing import TYPE_CHECKING, Any, Optional, TypeVar, Union, cast
+from typing import TYPE_CHECKING, Any, Optional, TypeVar, cast

 import torch
 import torch.nn as nn
@@ -42,13 +42,14 @@ def _create_pooling_model_cls(
    default_softmax: bool,
 ) -> _T:
    # Lazy import
-    from vllm.model_executor.layers.pooler import Pooler, PoolerOutput
-    from vllm.model_executor.pooling_metadata import PoolingMetadata
+    from vllm.model_executor.layers.pooler import Pooler

    from .utils import AutoWeightsLoader, WeightsMapper

    class ModelForPooling(orig_cls, VllmModelForPooling):

+        is_pooling_model = True
+
        def __init__(
            self,
            *,
@@ -66,27 +67,20 @@ def _create_pooling_model_cls(
                    delattr(self, attr)

            # If the model already defines a pooler instance, don't overwrite it
-            if not getattr(self, "_pooler", None):
+            if not getattr(self, "pooler", None):
                self._init_pooler(vllm_config, prefix=prefix)

        def _init_pooler(self, vllm_config: "VllmConfig", prefix: str = ""):
            pooler_config = vllm_config.model_config.pooler_config
            assert pooler_config is not None

-            self._pooler = Pooler.from_config_with_defaults(
+            self.pooler = Pooler.from_config_with_defaults(
                pooler_config,
                pooling_type=default_pooling_type,
                normalize=default_normalize,
                softmax=default_softmax,
            )

-        def pooler(
-            self,
-            hidden_states: torch.Tensor,
-            pooling_metadata: PoolingMetadata,
-        ) -> PoolerOutput:
-            return self._pooler(hidden_states, pooling_metadata)
-
        def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
            # TODO: Support uninitialized params tracking

@@ -171,10 +165,8 @@ def as_seq_cls_model(cls: _T) -> _T:
    # Lazy import
    from vllm.model_executor.layers.linear import RowParallelLinear
    from vllm.model_executor.layers.pooler import (ClassifierPooler,
-                                                   PoolerOutput, PoolingType,
-                                                   SimplePooler)
+                                                   PoolingType, SimplePooler)
    from vllm.model_executor.models.interfaces import SupportsCrossEncoding
-    from vllm.model_executor.pooling_metadata import PoolingMetadata
    from vllm.sequence import IntermediateTensors

    from .utils import maybe_prefix
@@ -213,7 +205,7 @@ def as_seq_cls_model(cls: _T) -> _T:
                softmax=True,
            )

-            self._pooler = ClassifierPooler(
+            self.pooler = ClassifierPooler(
                vllm_config.model_config,
                pooling=pooler.pooling,
                classifier=self._classifier,
@@ -234,13 +226,6 @@ def as_seq_cls_model(cls: _T) -> _T:
            return super().forward(input_ids, positions, intermediate_tensors,
                                   inputs_embeds)

-        def pooler(
-            self,
-            hidden_states: Union[torch.Tensor, list[torch.Tensor]],
-            pooling_metadata: PoolingMetadata,
-        ) -> PoolerOutput:
-            return self._pooler(hidden_states, pooling_metadata)
-
        def load_weights(self, weights: Iterable[tuple[str, torch.Tensor]]):
            tokens = getattr(self.config, "classifier_from_token", None)
            method = getattr(self.config, "method", None)