Support encoder-only models without KV-Cache (#21270)

Signed-off-by: Max de Bayser <maxdebayser@gmail.com> Signed-off-by: Max de Bayser <mbayser@br.ibm.com> Co-authored-by: Russell Bryant <rbryant@redhat.com>
2025-07-26 10:09:52 -03:00
parent f27fdfc3ed
commit 1cd6eaba54
17 changed files with 352 additions and 99 deletions
--- a/vllm/v1/attention/backends/utils.py
+++ b/vllm/v1/attention/backends/utils.py
@@ -59,6 +59,8 @@ class CommonAttentionMetadata:
    block_table_tensor: torch.Tensor
    slot_mapping: torch.Tensor

+    causal: bool = True
+

 M = TypeVar("M")

@@ -395,6 +397,7 @@ def make_local_attention_virtual_batches(
        max_query_len=seqlens_q_local.max(),
        block_table_tensor=block_table_local,
        slot_mapping=common_attn_metadata.slot_mapping,
+        causal=True,
    )