[CI/Build] Fix CUDA re-initialization error in distributed model tests (#34491)

Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk>
2026-02-13 14:43:53 +08:00
parent dcf6ee8592
commit 1b4e8e53f8
1 changed files with 3 additions and 1 deletions
--- a/tests/models/multimodal/generation/test_voxtral_realtime.py
+++ b/tests/models/multimodal/generation/test_voxtral_realtime.py
@@ -14,7 +14,6 @@ from mistral_common.tokens.tokenizers.mistral import MistralTokenizer
 from vllm import LLM, EngineArgs, SamplingParams
 from vllm.assets.audio import AudioAsset
 from vllm.engine.arg_utils import AsyncEngineArgs
-from vllm.model_executor.models.voxtral_realtime import VoxtralRealtimeBuffer
 from vllm.v1.engine.async_llm import AsyncLLM

 MODEL_NAME = "mistralai/Voxtral-Mini-4B-Realtime-2602"
@@ -114,6 +113,9 @@ def test_voxtral_realtime_forward(audio_assets, tokenizer, engine):

@pytest.mark.asyncio
 async def test_voxtral_realtime_generator(audio_assets, tokenizer, async_engine):
+    # Lazy import to avoid CUDA-reinitialization error
+    from vllm.model_executor.models.voxtral_realtime import VoxtralRealtimeBuffer
+
    sampling_params = SamplingParams(temperature=0.0, max_tokens=1)
    audio_config = tokenizer.instruct_tokenizer.audio_encoder.audio_config