Prefer FlashAttention MLA as default over FlashMLA (#27363)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com>
2025-11-11 11:13:51 -06:00
parent e553424919
commit 684f254585
1 changed files with 2 additions and 2 deletions
--- a/vllm/platforms/cuda.py
+++ b/vllm/platforms/cuda.py
@@ -55,15 +55,15 @@ def _get_backend_priorities(
            return [
                AttentionBackendEnum.CUTLASS_MLA,
                AttentionBackendEnum.FLASHINFER_MLA,
-                AttentionBackendEnum.FLASHMLA,
                AttentionBackendEnum.FLASH_ATTN_MLA,
+                AttentionBackendEnum.FLASHMLA,
                AttentionBackendEnum.TRITON_MLA,
                AttentionBackendEnum.FLASHMLA_SPARSE,
            ]
        else:
            return [
-                AttentionBackendEnum.FLASHMLA,
                AttentionBackendEnum.FLASH_ATTN_MLA,
+                AttentionBackendEnum.FLASHMLA,
                AttentionBackendEnum.FLASHINFER_MLA,
                AttentionBackendEnum.TRITON_MLA,
                AttentionBackendEnum.FLASHMLA_SPARSE,