[Refactor] Remove get_encoder_dummy_data (#32241)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
2026-01-13 17:21:23 +08:00
parent 542a4059b2
commit eb28e8068d
6 changed files with 21 additions and 82 deletions
--- a/vllm/model_executor/models/nemotron_parse.py
+++ b/vllm/model_executor/models/nemotron_parse.py
@@ -605,6 +605,10 @@ class NemotronParseProcessingInfo(BaseProcessingInfo):
            **kwargs,
        )

+    @property
+    def skip_prompt_length_check(self) -> bool:
+        return True  # Because the encoder prompt is padded
+
    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
        return {"image": 1}

@@ -657,10 +661,6 @@ class NemotronParseMultiModalProcessor(
    ) -> str | list[int]:
        return [0]

-    @property
-    def pad_dummy_encoder_prompt(self) -> bool:
-        return True
-
    def _call_hf_processor(
        self,
        prompt: str,
--- a/vllm/model_executor/models/whisper.py
+++ b/vllm/model_executor/models/whisper.py
@@ -681,6 +681,10 @@ class WhisperProcessingInfo(BaseProcessingInfo):
    def get_hf_config(self) -> WhisperConfig:
        return self.ctx.get_hf_config(WhisperConfig)

+    @property
+    def skip_prompt_length_check(self) -> bool:
+        return True  # Because the encoder prompt is padded
+
    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
        return {"audio": 1}

@@ -733,10 +737,6 @@ class WhisperMultiModalProcessor(EncDecMultiModalProcessor[WhisperProcessingInfo
            target_channels=self.info.get_target_channels(),
        )

-    @property
-    def pad_dummy_encoder_prompt(self) -> bool:
-        return True
-
    def create_encoder_prompt(
        self,
        prompt: str | list[int],
--- a/vllm/multimodal/processing.py
+++ b/vllm/multimodal/processing.py
@@ -1396,6 +1396,10 @@ class BaseProcessingInfo:
        """
        return self.ctx.get_hf_processor(**kwargs)

+    @property
+    def skip_prompt_length_check(self) -> bool:
+        return False
+
    @abstractmethod
    def get_supported_mm_limits(self) -> Mapping[str, int | None]:
        """
@@ -2403,10 +2407,6 @@ class EncDecMultiModalProcessor(BaseMultiModalProcessor[_I]):
        """
        raise NotImplementedError

-    @property
-    def pad_dummy_encoder_prompt(self) -> bool:
-        return False
-
    def create_decoder_prompt(
        self,
        prompt: str | list[int],
--- a/vllm/multimodal/profiling.py
+++ b/vllm/multimodal/profiling.py
@@ -3,7 +3,7 @@
 from abc import ABC, abstractmethod
 from collections.abc import Mapping
 from dataclasses import dataclass, field
-from typing import Generic, NamedTuple, TypeVar, cast
+from typing import Generic, NamedTuple, TypeVar

 import numpy as np
 import numpy.typing as npt
@@ -19,7 +19,6 @@ from vllm.logger import init_logger

 from .inputs import (
    MultiModalDataDict,
-    MultiModalEncDecInputs,
    MultiModalInputs,
    MultiModalKwargsItems,
    MultiModalPlaceholderDict,
@@ -27,7 +26,6 @@ from .inputs import (
 from .processing import (
    BaseMultiModalProcessor,
    BaseProcessingInfo,
-    EncDecMultiModalProcessor,
 )

 logger = init_logger(__name__)
@@ -282,28 +280,6 @@ class MultiModalProfiler(Generic[_I]):
            for modality, placeholders in placeholders_by_modality.items()
        }

-    def get_encoder_dummy_data(
-        self,
-        seq_len: int,
-        mm_counts: Mapping[str, int] | None = None,
-        mm_options: Mapping[str, BaseDummyOptions] | None = None,
-    ) -> DummyEncoderData:
-        mm_inputs = self._get_dummy_mm_inputs(seq_len, mm_counts, mm_options)
-        mm_inputs = cast(MultiModalEncDecInputs, mm_inputs)
-
-        # For encoder-decoder models, use encoder prompt token ids instead of
-        # decoder prompt to construct dummy seq_data for encoder profiling.
-        encoder_prompt_token_ids = mm_inputs["encoder_prompt_token_ids"]
-
-        total_len = len(encoder_prompt_token_ids)
-
-        processor = cast(EncDecMultiModalProcessor, self.processor)
-        if processor.pad_dummy_encoder_prompt:
-            num_tokens_to_pad = max(total_len, seq_len) - total_len
-            encoder_prompt_token_ids.extend([0] * num_tokens_to_pad)
-
-        return DummyEncoderData(encoder_prompt_token_ids)
-
    def get_decoder_dummy_data(
        self,
        seq_len: int,
--- a/vllm/multimodal/registry.py
+++ b/vllm/multimodal/registry.py
@@ -18,7 +18,6 @@ from .processing import (
 from .profiling import (
    BaseDummyInputsBuilder,
    DummyDecoderData,
-    DummyEncoderData,
    MultiModalProfiler,
 )

@@ -317,43 +316,6 @@ class MultiModalRegistry:

        return dummy_data

-    def get_encoder_dummy_data(
-        self,
-        model_config: "ModelConfig",
-        seq_len: int,
-        mm_counts: Mapping[str, int] | None = None,
-        *,
-        cache: BaseMultiModalProcessorCache | None = None,
-        observability_config: ObservabilityConfig | None = None,
-    ) -> DummyEncoderData:
-        """
-        Create dummy data for profiling the memory usage of a model.
-
-        The model is identified by `model_config`.
-        """
-        processor = self.create_processor(
-            model_config, observability_config, cache=cache
-        )
-        profiler: MultiModalProfiler = MultiModalProfiler(processor)
-
-        # Extract configurable options from multimodal config.
-        # Only include modalities that use advanced option types so legacy
-        # count-only behavior remains unchanged.
-        mm_options = self._extract_mm_options(model_config)
-
-        dummy_data = profiler.get_encoder_dummy_data(seq_len, mm_counts, mm_options)
-
-        # Having more tokens is over-conservative but otherwise fine
-        token_ids = dummy_data.prompt_token_ids
-        if len(token_ids) < seq_len:
-            logger.warning_once(
-                "Expected at least %d dummy encoder tokens for profiling, but found %d tokens instead.",  # noqa: E501
-                seq_len,
-                len(token_ids),
-            )
-
-        return dummy_data
-
    def get_encdec_max_encoder_len(self, model_config: "ModelConfig") -> int:
        """
        Get the maximum length of the encoder input for encoder-decoder models.
--- a/vllm/v1/engine/input_processor.py
+++ b/vllm/v1/engine/input_processor.py
@@ -17,7 +17,7 @@ from vllm.multimodal import MULTIMODAL_REGISTRY, MultiModalRegistry
 from vllm.multimodal.cache import processor_cache_from_config
 from vllm.multimodal.inputs import MultiModalFeatureSpec, MultiModalUUIDDict
 from vllm.multimodal.parse import MultiModalDataParser
-from vllm.multimodal.processing import EncDecMultiModalProcessor, set_request_id
+from vllm.multimodal.processing import set_request_id
 from vllm.multimodal.utils import argsort_mm_positions
 from vllm.pooling_params import PoolingParams
 from vllm.sampling_params import _SAMPLING_EPS, SamplingParams
@@ -655,17 +655,18 @@ class InputProcessor:

        max_prompt_len = self.model_config.max_model_len
        if prompt_len > max_prompt_len:
-            if prompt_type == "encoder" and model_config.is_multimodal_model:
+            if model_config.is_multimodal_model:
                mm_registry = self.input_preprocessor.mm_registry
-                mm_processor = mm_registry.create_processor(
+                model_cls = mm_registry._get_model_cls(model_config)
+                factories = model_cls._processor_factory
+                ctx = mm_registry._create_processing_ctx(
                    model_config,
-                    self.vllm_config.observability_config,
                    tokenizer=tokenizer,
                )
-                assert isinstance(mm_processor, EncDecMultiModalProcessor)
+                mm_info = factories.info(ctx)

-                if mm_processor.pad_dummy_encoder_prompt:
-                    return  # Skip encoder length check for Whisper
+                if mm_info.skip_prompt_length_check:
+                    return

            if model_config.is_multimodal_model:
                suggestion = (