[V0 deprecation] Remove no longer used get_metadata_cls (#28370)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>
2025-11-10 01:32:09 -05:00
parent 03fa4d3fb3
commit e8697faf03
20 changed files with 9 additions and 332 deletions
--- a/vllm/attention/backends/abstract.py
+++ b/vllm/attention/backends/abstract.py
@@ -51,19 +51,10 @@ class AttentionBackend(ABC):
    def get_impl_cls() -> type["AttentionImpl"]:
        raise NotImplementedError

-    @staticmethod
-    @abstractmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        raise NotImplementedError
-
    @classmethod
    def get_supported_kernel_block_size(cls) -> list[int | MultipleOf]:
        return cls.get_impl_cls().get_supported_kernel_block_size()

-    @classmethod
-    def make_metadata(cls, *args, **kwargs) -> "AttentionMetadata":
-        return cls.get_metadata_cls()(*args, **kwargs)
-
    @staticmethod
    @abstractmethod
    def get_builder_cls():  # -> Type["AttentionMetadataBuilder"]:
--- a/vllm/v1/attention/backends/cpu_attn.py
+++ b/vllm/v1/attention/backends/cpu_attn.py
@@ -66,10 +66,6 @@ class TorchSDPABackend(AttentionBackend):
    def get_impl_cls() -> type["TorchSDPABackendImpl"]:
        return TorchSDPABackendImpl

-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return TorchSDPAMetadata
-
    @staticmethod
    def get_builder_cls() -> type["TorchSDPAMetadataBuilderV1"]:
        return TorchSDPAMetadataBuilderV1
--- a/vllm/v1/attention/backends/flash_attn.py
+++ b/vllm/v1/attention/backends/flash_attn.py
@@ -11,7 +11,6 @@ from vllm import envs
 from vllm.attention.backends.abstract import (
    AttentionBackend,
    AttentionImpl,
-    AttentionMetadata,
    AttentionType,
    MultipleOf,
    is_quantized_kv_cache,
@@ -90,10 +89,6 @@ class FlashAttentionBackend(AttentionBackend):
    def get_impl_cls() -> type["FlashAttentionImpl"]:
        return FlashAttentionImpl

-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return FlashAttentionMetadata
-
    @staticmethod
    def get_builder_cls() -> type["FlashAttentionMetadataBuilder"]:
        return FlashAttentionMetadataBuilder
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -195,10 +195,6 @@ class FlashInferBackend(AttentionBackend):
    def get_impl_cls() -> type["FlashInferImpl"]:
        return FlashInferImpl

-    @staticmethod
-    def get_metadata_cls() -> type["FlashInferMetadata"]:
-        return FlashInferMetadata
-
    @staticmethod
    def get_builder_cls() -> type["FlashInferMetadataBuilder"]:
        return FlashInferMetadataBuilder
--- a/vllm/v1/attention/backends/flex_attention.py
+++ b/vllm/v1/attention/backends/flex_attention.py
@@ -20,7 +20,6 @@ from torch.nn.attention.flex_attention import (
 from vllm.attention.backends.abstract import (
    AttentionBackend,
    AttentionImpl,
-    AttentionMetadata,
    AttentionType,
    is_quantized_kv_cache,
 )
@@ -89,10 +88,6 @@ class FlexAttentionBackend(AttentionBackend):
    def get_impl_cls() -> type["FlexAttentionImpl"]:
        return FlexAttentionImpl

-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return FlexAttentionMetadata
-
    @staticmethod
    def get_kv_cache_shape(
        num_blocks: int,
--- a/vllm/v1/attention/backends/mla/common.py
+++ b/vllm/v1/attention/backends/mla/common.py
@@ -201,7 +201,6 @@ from vllm import _custom_ops as ops
 from vllm.attention.backends.abstract import (
    AttentionBackend,
    AttentionLayer,
-    AttentionMetadata,
    MLAAttentionImpl,
 )
 from vllm.attention.backends.utils import get_mla_dims
@@ -307,10 +306,6 @@ class MLACommonBackend(AttentionBackend):
    def get_name() -> str:
        return "TRITON_MLA"

-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return MLACommonMetadata
-
    @staticmethod
    def get_builder_cls() -> type["MLACommonMetadataBuilder"]:
        return MLACommonMetadataBuilder
--- a/vllm/v1/attention/backends/mla/flashattn_mla.py
+++ b/vllm/v1/attention/backends/mla/flashattn_mla.py
@@ -41,10 +41,6 @@ class FlashAttnMLABackend(MLACommonBackend):
    def get_name() -> str:
        return "FLASH_ATTN_MLA"

-    @staticmethod
-    def get_metadata_cls() -> type["FlashAttnMLAMetadata"]:
-        return FlashAttnMLAMetadata
-
    @staticmethod
    def get_builder_cls() -> type["FlashAttnMLAMetadataBuilder"]:
        return FlashAttnMLAMetadataBuilder
--- a/vllm/v1/attention/backends/mla/flashmla.py
+++ b/vllm/v1/attention/backends/mla/flashmla.py
@@ -40,10 +40,6 @@ class FlashMLABackend(MLACommonBackend):
    def get_name() -> str:
        return "FLASHMLA"

-    @staticmethod
-    def get_metadata_cls() -> type["FlashMLAMetadata"]:
-        return FlashMLAMetadata
-
    @staticmethod
    def get_builder_cls() -> type["FlashMLAMetadataBuilder"]:
        return FlashMLAMetadataBuilder
--- a/vllm/v1/attention/backends/mla/flashmla_sparse.py
+++ b/vllm/v1/attention/backends/mla/flashmla_sparse.py
@@ -10,7 +10,6 @@ from vllm import _custom_ops as ops
 from vllm.attention.backends.abstract import (
    AttentionBackend,
    AttentionLayer,
-    AttentionMetadata,
 )
 from vllm.attention.backends.utils import get_mla_dims
 from vllm.attention.ops.flashmla import (
@@ -57,10 +56,6 @@ class FlashMLASparseBackend(AttentionBackend):
    def get_name() -> str:
        return "FLASHMLA_SPARSE"

-    @staticmethod
-    def get_metadata_cls() -> type[AttentionMetadata]:
-        return FlashMLASparseMetadata
-
    @staticmethod
    def get_builder_cls() -> type["FlashMLASparseMetadataBuilder"]:
        return FlashMLASparseMetadataBuilder
--- a/vllm/v1/attention/backends/mla/indexer.py
+++ b/vllm/v1/attention/backends/mla/indexer.py
@@ -7,7 +7,6 @@ import torch

 from vllm.attention.backends.abstract import (
    AttentionBackend,
-    AttentionMetadata,
    MultipleOf,
 )
 from vllm.config import VllmConfig
@@ -24,10 +23,6 @@ logger = init_logger(__name__)


 class DeepseekV32IndexerBackend(AttentionBackend):
-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return DeepseekV32IndexerMetadata
-
    @classmethod
    def get_supported_head_sizes(cls) -> list[int]:
        return [32, 64, 128]
--- a/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
+++ b/vllm/v1/attention/backends/mla/rocm_aiter_mla.py
@@ -35,10 +35,6 @@ class AiterMLABackend(MLACommonBackend):
    def get_impl_cls() -> type["AiterMLAImpl"]:
        return AiterMLAImpl

-    @staticmethod
-    def get_metadata_cls() -> type["AiterMLAMetadata"]:
-        return AiterMLAMetadata
-
    @staticmethod
    def get_builder_cls() -> type["AiterMLAMetadataBuilder"]:
        return AiterMLAMetadataBuilder
--- a/vllm/v1/attention/backends/pallas.py
+++ b/vllm/v1/attention/backends/pallas.py
@@ -108,10 +108,6 @@ class PallasAttentionBackend(AttentionBackend):
    def get_impl_cls() -> type["PallasAttentionBackendImpl"]:
        return PallasAttentionBackendImpl

-    @staticmethod
-    def get_metadata_cls() -> type["PallasMetadata"]:
-        return PallasMetadata
-
    @staticmethod
    def get_kv_cache_shape(
        num_blocks: int,
--- a/vllm/v1/attention/backends/rocm_aiter_fa.py
+++ b/vllm/v1/attention/backends/rocm_aiter_fa.py
@@ -9,7 +9,6 @@ import torch
 from vllm.attention.backends.abstract import (
    AttentionBackend,
    AttentionImpl,
-    AttentionMetadata,
    AttentionType,
    MultipleOf,
 )
@@ -479,10 +478,6 @@ class AiterFlashAttentionBackend(AttentionBackend):
    def get_impl_cls() -> type["AiterFlashAttentionImpl"]:
        return AiterFlashAttentionImpl

-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return AiterFlashAttentionMetadata
-
    @staticmethod
    def get_builder_cls() -> type["AiterFlashAttentionMetadataBuilder"]:
        return AiterFlashAttentionMetadataBuilder
--- a/vllm/v1/attention/backends/rocm_aiter_unified_attn.py
+++ b/vllm/v1/attention/backends/rocm_aiter_unified_attn.py
@@ -5,7 +5,7 @@
 import torch

 from vllm import _custom_ops as ops
-from vllm.attention.backends.abstract import AttentionMetadata, AttentionType
+from vllm.attention.backends.abstract import AttentionType
 from vllm.logger import init_logger
 from vllm.model_executor.layers.quantization.utils.quant_utils import (
    QuantKey,
@@ -15,7 +15,6 @@ from vllm.v1.attention.backends.flash_attn import FlashAttentionMetadata
 from vllm.v1.attention.backends.rocm_attn import (
    RocmAttentionBackend,
    RocmAttentionImpl,
-    RocmAttentionMetadata,
    RocmAttentionMetadataBuilder,
 )

@@ -33,10 +32,6 @@ class RocmAiterUnifiedAttentionBackend(RocmAttentionBackend):
    def get_impl_cls() -> type["RocmAiterUnifiedAttentionImpl"]:
        return RocmAiterUnifiedAttentionImpl

-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return RocmAttentionMetadata
-
    @staticmethod
    def get_kv_cache_shape(
        num_blocks: int,
--- a/vllm/v1/attention/backends/rocm_attn.py
+++ b/vllm/v1/attention/backends/rocm_attn.py
@@ -10,7 +10,6 @@ import torch
 from vllm.attention.backends.abstract import (
    AttentionBackend,
    AttentionImpl,
-    AttentionMetadata,
    AttentionType,
 )
 from vllm.attention.ops.chunked_prefill_paged_decode import chunked_prefill_paged_decode
@@ -182,10 +181,6 @@ class RocmAttentionBackend(AttentionBackend):
    def get_impl_cls() -> type["RocmAttentionImpl"]:
        return RocmAttentionImpl

-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return RocmAttentionMetadata
-
    @staticmethod
    def get_kv_cache_shape(
        num_blocks: int,
--- a/vllm/v1/attention/backends/tree_attn.py
+++ b/vllm/v1/attention/backends/tree_attn.py
@@ -12,7 +12,6 @@ from vllm import _custom_ops as ops
 from vllm.attention.backends.abstract import (
    AttentionBackend,
    AttentionImpl,
-    AttentionMetadata,
    AttentionType,
    MultipleOf,
 )
@@ -64,10 +63,6 @@ class TreeAttentionBackend(AttentionBackend):
    def get_impl_cls() -> type["TreeAttentionImpl"]:
        return TreeAttentionImpl

-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return TreeAttentionMetadata
-
    @staticmethod
    def get_kv_cache_shape(
        num_blocks: int,
--- a/vllm/v1/attention/backends/triton_attn.py
+++ b/vllm/v1/attention/backends/triton_attn.py
@@ -10,7 +10,6 @@ import torch
 from vllm.attention.backends.abstract import (
    AttentionBackend,
    AttentionImpl,
-    AttentionMetadata,
    AttentionType,
    MultipleOf,
 )
@@ -176,10 +175,6 @@ class TritonAttentionBackend(AttentionBackend):
    def get_impl_cls() -> type["TritonAttentionImpl"]:
        return TritonAttentionImpl

-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return TritonAttentionMetadata
-
    @staticmethod
    def get_kv_cache_shape(
        num_blocks: int,
--- a/vllm/v1/attention/backends/xformers.py
+++ b/vllm/v1/attention/backends/xformers.py
@@ -10,7 +10,6 @@ import torch
 from vllm.attention.backends.abstract import (
    AttentionBackend,
    AttentionImpl,
-    AttentionMetadata,
    AttentionType,
    MultipleOf,
 )
@@ -105,10 +104,6 @@ class XFormersAttentionBackend(AttentionBackend):
    def get_impl_cls() -> type["XFormersAttentionImpl"]:
        return XFormersAttentionImpl

-    @staticmethod
-    def get_metadata_cls() -> type["AttentionMetadata"]:
-        return XFormersAttentionMetadata
-
    @staticmethod
    def get_kv_cache_shape(
        num_blocks: int,
--- a/vllm/v1/worker/gpu_model_runner.py
+++ b/vllm/v1/worker/gpu_model_runner.py
@@ -20,7 +20,11 @@ from tqdm import tqdm

 import vllm.envs as envs
 from vllm.attention import Attention, AttentionType
-from vllm.attention.backends.abstract import AttentionBackend, MultipleOf
+from vllm.attention.backends.abstract import (
+    AttentionBackend,
+    AttentionMetadata,
+    MultipleOf,
+)
 from vllm.compilation.counter import compilation_counter
 from vllm.compilation.cuda_graph import CUDAGraphWrapper
 from vllm.compilation.monitor import set_cudagraph_capturing_enabled
@@ -82,7 +86,6 @@ from vllm.utils.torch_utils import (
    kv_cache_dtype_str_to_dtype,
    supports_dynamo,
 )
-from vllm.v1.attention.backends.flash_attn import AttentionMetadata
 from vllm.v1.attention.backends.gdn_attn import GDNAttentionMetadataBuilder
 from vllm.v1.attention.backends.utils import (
    AttentionCGSupport,