[MM] Pass prefix parameter to MMEncoderAttention (#33674)

Signed-off-by: shen-shanshan <467638484@qq.com>
2026-02-03 22:47:41 +08:00
parent f3d8a34671
commit 5c4f2dd6ef
15 changed files with 58 additions and 11 deletions
--- a/vllm/model_executor/models/mllama4.py
+++ b/vllm/model_executor/models/mllama4.py
@@ -254,7 +254,10 @@ class Llama4VisionAttention(nn.Module):
        self.scaling = self.head_dim**-0.5

        self.attn = MMEncoderAttention(
-            self.num_local_heads, self.head_dim, self.scaling
+            self.num_local_heads,
+            self.head_dim,
+            self.scaling,
+            prefix=prefix,
        )

        if use_data_parallel: