From f9e6db30349d7ec70410981b1f634a1e661e61e1 Mon Sep 17 00:00:00 2001
From: Lukas Geiger <lukas.geiger94@gmail.com>
Date: Mon, 16 Mar 2026 12:11:59 +0000
Subject: [PATCH] [Models][Qwen3 ViT] Keep `max_seqlen` on CPU to prevent D2H
 sync (#37139)

Signed-off-by: Lukas Geiger <lukas.geiger94@gmail.com>
Co-authored-by: Isotr0py <mozf@mail2.sysu.edu.cn>
---
 vllm/model_executor/models/qwen3_vl.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index 42cadb20e..7e36672b7 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -557,7 +557,6 @@ class Qwen3_VisionTransformer(nn.Module):
         max_seqlen = torch.tensor(
             MMEncoderAttention.compute_max_seqlen(self.attn_backend, cu_seqlens),
             dtype=torch.int32,
-            device=self.device,
         )
         cu_seqlens = MMEncoderAttention.maybe_recompute_cu_seqlens(
             self.attn_backend,