[Bugfix] Standardize merging multimodal embeddings (#26771)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
2025-10-14 17:36:21 +08:00
parent 577d498212
commit d2f816d6ff
19 changed files with 57 additions and 57 deletions
--- a/vllm/model_executor/models/phi4mm.py
+++ b/vllm/model_executor/models/phi4mm.py
@@ -1248,8 +1248,8 @@ class Phi4MMForCausalLM(nn.Module, SupportsLoRA, SupportsMultiModal):
            if modality == "images":
                audio_projection_mode = "vision"
                image_input = modalities["images"]
-                vision_embeddings = self._process_image_input(image_input)
-                multimodal_embeddings += tuple(vision_embeddings)
+                image_embeddings = self._process_image_input(image_input)
+                multimodal_embeddings += tuple(image_embeddings)
            if modality == "audios":
                audio_input = modalities["audios"]
                audio_embeddings = self._process_audio_input(