[4/N] Initialize MM components in context managers (M-P) (#32663)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
2026-01-20 22:06:32 +08:00
parent bb9172030e
commit fda3f03eb2
24 changed files with 290 additions and 353 deletions
--- a/vllm/model_executor/models/nano_nemotron_vl.py
+++ b/vllm/model_executor/models/nano_nemotron_vl.py
@@ -1511,34 +1511,38 @@ class NemotronH_Nano_VL_V2(
        self.ps_version = config.ps_version
        self.image_tag_type = config.image_tag_type
        self.video_pruning_rate = multimodal_config.video_pruning_rate
-        self.language_model = init_vllm_registered_model(
-            vllm_config=vllm_config,
-            hf_config=config.text_config,
-            prefix=maybe_prefix(prefix, "language_model"),
-        )
-        self.vision_model = self.get_vit_model_from_radio_config(config).to(
-            self.language_model.config.dtype
-        )

-        # Construct the vision projection.
-        vit_hidden_size = config.vit_hidden_size
-        vision_projection_hidden_size = config.projector_hidden_size
-        llm_hidden_size = config.text_config.hidden_size
+        with self._mark_language_model(vllm_config):
+            self.language_model = language_model = init_vllm_registered_model(
+                vllm_config=vllm_config,
+                hf_config=config.text_config,
+                prefix=maybe_prefix(prefix, "language_model"),
+            )

-        self.mlp1 = nn.Sequential(
-            RMSNorm(
-                hidden_size=vit_hidden_size * int(1 / self.downsample_ratio) ** 2,
-                eps=1e-5,
-            ),
-            nn.Linear(
-                vit_hidden_size * int(1 / self.downsample_ratio) ** 2,
-                vision_projection_hidden_size,
-                bias=False,
-            ),
-            ReLUSquaredActivation(),
-            nn.Linear(vision_projection_hidden_size, llm_hidden_size, bias=False),
-        )
-        self.mlp1 = self.mlp1.to(self.language_model.config.dtype)
+        with self._mark_tower_model(vllm_config, {"image", "video"}):
+            self.vision_model = self.get_vit_model_from_radio_config(config).to(
+                self.language_model.config.dtype
+            )
+
+            # Construct the vision projection.
+            vit_hidden_size = config.vit_hidden_size
+            vision_projection_hidden_size = config.projector_hidden_size
+            llm_hidden_size = config.text_config.hidden_size
+
+            mlp1 = nn.Sequential(
+                RMSNorm(
+                    hidden_size=vit_hidden_size * int(1 / self.downsample_ratio) ** 2,
+                    eps=1e-5,
+                ),
+                nn.Linear(
+                    vit_hidden_size * int(1 / self.downsample_ratio) ** 2,
+                    vision_projection_hidden_size,
+                    bias=False,
+                ),
+                ReLUSquaredActivation(),
+                nn.Linear(vision_projection_hidden_size, llm_hidden_size, bias=False),
+            )
+            self.mlp1 = mlp1.to(language_model.config.dtype)

        self.config = config
        self.model_config = vllm_config.model_config
@@ -1909,9 +1913,6 @@ class NemotronH_Nano_VL_V2(

        return multimodal_embeddings

-    def get_language_model(self) -> torch.nn.Module:
-        return self.language_model
-
    def forward(
        self,
        input_ids: torch.Tensor,
@@ -1921,7 +1922,6 @@ class NemotronH_Nano_VL_V2(
        **kwargs: object,
    ) -> torch.Tensor | IntermediateTensors:
        if intermediate_tensors is not None:
-            input_ids = None
            inputs_embeds = None

        hidden_states = self.language_model(