[Attention] Clean up iRoPE in V1 (#21188)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Co-authored-by: Michael Goin <mgoin64@gmail.com>
2025-07-21 12:10:30 -04:00
parent 6ece16c4fe
commit 304dce7ec0
9 changed files with 14 additions and 26 deletions
--- a/vllm/v1/attention/backends/triton_attn.py
+++ b/vllm/v1/attention/backends/triton_attn.py
@@ -72,9 +72,6 @@ class TritonAttentionMetadataBuilder(
            vllm_config.parallel_config)
        self.headdim = model_config.get_head_size()

-        self.attention_chunk_size = getattr(vllm_config.scheduler_config,
-                                            'attention_chunk_size', None)
-
    def build_for_cudagraph_capture(
        self, common_attn_metadata: CommonAttentionMetadata
    ) -> TritonAttentionMetadata:
@@ -208,7 +205,6 @@ class TritonAttentionImpl(AttentionImpl):
        logits_soft_cap: Optional[float] = None,
        attn_type: AttentionType = AttentionType.DECODER,
        kv_sharing_target_layer_name: Optional[int] = None,
-        use_irope: bool = False,
    ) -> None:
        self.num_heads = num_heads
        self.head_size = head_size
@@ -228,8 +224,6 @@ class TritonAttentionImpl(AttentionImpl):
        self.logits_soft_cap = logits_soft_cap
        self.kv_sharing_target_layer_name = kv_sharing_target_layer_name

-        self.use_irope = use_irope
-
        self.num_queries_per_kv = self.num_heads // self.num_kv_heads

        TritonAttentionBackend.validate_head_size(head_size)