From 179ae7da8f48f76b0db4dc3e331153b24a36a96a Mon Sep 17 00:00:00 2001
From: aabbccddwasd <140953076+aabbccddwasd@users.noreply.github.com>
Date: Mon, 9 Feb 2026 00:13:24 +0800
Subject: [PATCH] [Revert] Fix performance regression for GLM-4.7-GPTQ decode
 and MTP acceptance rate (#33771)

Signed-off-by: aabbccddwasd <aabbccddwasd@qq.com>
---
 vllm/v1/attention/backends/flashinfer.py | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index 8e81c6fe9..26d372c11 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -919,9 +919,7 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
         # Guard access to seq_lens_cpu, which may not always be needed
         # and can be expensive to retrieve in async mode.
         needs_seq_lens_cpu = self.use_dcp or use_cascade or not is_only_trtllm_decode
-        seq_lens_cpu = (
-            common_attn_metadata.seq_lens.cpu() if needs_seq_lens_cpu else None
-        )
+        seq_lens_cpu = common_attn_metadata.seq_lens_cpu if needs_seq_lens_cpu else None
         seq_lens_np = seq_lens_cpu.numpy() if seq_lens_cpu is not None else None
         num_blocks_np = (
             (seq_lens_np + (page_size - 1)) // page_size