[Models]: Make Multimodal config implicit in ViT implementation (#31972)

Signed-off-by: Isotr0py <mozf@mail2.sysu.edu.cn>
2026-01-24 20:34:26 +08:00
parent 6450b536a6
commit 9ad7f89f55
38 changed files with 118 additions and 470 deletions
--- a/vllm/model_executor/models/qwen2_vl.py
+++ b/vllm/model_executor/models/qwen2_vl.py
@@ -43,7 +43,7 @@ from transformers.models.qwen2_vl.configuration_qwen2_vl import (
 from transformers.models.qwen2_vl.image_processing_qwen2_vl import smart_resize
 from transformers.models.qwen2_vl.video_processing_qwen2_vl import Qwen2VLVideoProcessor

-from vllm.config import MultiModalConfig, VllmConfig
+from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions
 from vllm.distributed import parallel_state, tensor_model_parallel_all_gather
 from vllm.distributed import utils as dist_utils
@@ -106,6 +106,7 @@ from .utils import (
 )
 from .vision import (
    get_vit_attn_backend,
+    is_vit_use_data_parallel,
    run_dp_sharded_mrope_vision_model,
 )

@@ -247,15 +248,10 @@ class Qwen2VisionMLP(nn.Module):
        hidden_features: int,
        act_layer: type[nn.Module] = QuickGELU,
        quant_config: QuantizationConfig | None = None,
-        multimodal_config: MultiModalConfig | None = None,
        prefix: str = "",
    ):
        super().__init__()
-        use_data_parallel = (
-            multimodal_config.mm_encoder_tp_mode == "data"
-            if multimodal_config
-            else False
-        )
+        use_data_parallel = is_vit_use_data_parallel()
        self.fc1 = ColumnParallelLinear(
            in_features,
            hidden_features,
@@ -286,16 +282,11 @@ class Qwen2VisionAttention(nn.Module):
        num_heads: int,
        projection_size: int,
        quant_config: QuantizationConfig | None = None,
-        multimodal_config: MultiModalConfig | None = None,
        prefix: str = "",
    ) -> None:
        super().__init__()
        # Per attention head and per partition values.
-        use_data_parallel = (
-            multimodal_config.mm_encoder_tp_mode == "data"
-            if multimodal_config
-            else False
-        )
+        use_data_parallel = is_vit_use_data_parallel()
        self.tp_size = (
            1
            if use_data_parallel
@@ -328,7 +319,6 @@ class Qwen2VisionAttention(nn.Module):
            num_heads=self.num_attention_heads_per_partition,
            head_size=self.hidden_size_per_attention_head,
            scale=self.hidden_size_per_attention_head**-0.5,
-            multimodal_config=multimodal_config,
        )

        self.apply_rotary_emb = ApplyRotaryEmb(enforce_enable=True)
@@ -409,7 +399,6 @@ class Qwen2VisionBlock(nn.Module):
        act_layer: type[nn.Module] = QuickGELU,
        norm_layer: Callable[[int], nn.Module] | None = None,
        quant_config: QuantizationConfig | None = None,
-        multimodal_config: MultiModalConfig | None = None,
        prefix: str = "",
    ) -> None:
        super().__init__()
@@ -424,7 +413,6 @@ class Qwen2VisionBlock(nn.Module):
            num_heads=num_heads,
            projection_size=dim,
            quant_config=quant_config,
-            multimodal_config=multimodal_config,
            prefix=f"{prefix}.attn",
        )
        self.mlp = Qwen2VisionMLP(
@@ -432,7 +420,6 @@ class Qwen2VisionBlock(nn.Module):
            mlp_hidden_dim,
            act_layer=act_layer,
            quant_config=quant_config,
-            multimodal_config=multimodal_config,
            prefix=f"{prefix}.mlp",
        )

@@ -493,15 +480,10 @@ class Qwen2VisionPatchMerger(nn.Module):
        norm_layer: Callable[[int], nn.Module] | None = None,
        spatial_merge_size: int = 2,
        quant_config: QuantizationConfig | None = None,
-        multimodal_config: MultiModalConfig | None = None,
        prefix: str = "",
    ) -> None:
        super().__init__()
-        use_data_parallel = (
-            multimodal_config.mm_encoder_tp_mode == "data"
-            if multimodal_config
-            else False
-        )
+        use_data_parallel = is_vit_use_data_parallel()
        self.hidden_size = context_dim * (spatial_merge_size**2)
        if norm_layer is None:
            norm_layer = partial(nn.LayerNorm, eps=1e-6)
@@ -545,7 +527,6 @@ class Qwen2VisionTransformer(nn.Module):
        vision_config: Qwen2VLVisionConfig,
        norm_eps: float = 1e-6,
        quant_config: QuantizationConfig | None = None,
-        multimodal_config: MultiModalConfig | None = None,
        prefix: str = "",
    ) -> None:
        super().__init__()
@@ -560,11 +541,7 @@ class Qwen2VisionTransformer(nn.Module):
        num_heads = vision_config.num_heads
        mlp_ratio = vision_config.mlp_ratio

-        self.use_data_parallel = (
-            multimodal_config.mm_encoder_tp_mode == "data"
-            if multimodal_config
-            else False
-        )
+        self.use_data_parallel = is_vit_use_data_parallel()
        self.out_hidden_size = vision_config.hidden_size

        self.spatial_merge_size = spatial_merge_size
@@ -596,7 +573,6 @@ class Qwen2VisionTransformer(nn.Module):
                    norm_layer=norm_layer,
                    quant_config=quant_config,
                    prefix=f"{prefix}.blocks.{layer_idx}",
-                    multimodal_config=multimodal_config,
                )
                for layer_idx in range(depth)
            ]
@@ -607,15 +583,10 @@ class Qwen2VisionTransformer(nn.Module):
            norm_layer=norm_layer,
            quant_config=quant_config,
            prefix=f"{prefix}.merger",
-            multimodal_config=multimodal_config,
-        )
-        attn_backend_override = (
-            multimodal_config.mm_encoder_attn_backend if multimodal_config else None
        )
        self.attn_backend = get_vit_attn_backend(
            head_size=head_dim,
            dtype=torch.get_default_dtype(),
-            attn_backend_override=attn_backend_override,
        )

    @property
@@ -1238,7 +1209,6 @@ class Qwen2VLForConditionalGeneration(
                config.vision_config,
                norm_eps=getattr(config, "rms_norm_eps", 1e-6),
                quant_config=quant_config,
-                multimodal_config=multimodal_config,
                prefix=maybe_prefix(prefix, "visual"),
            )