Update batch invariant to use attention config (#30704)

Signed-off-by: Matthew Bonanni <mbonanni@redhat.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com>
2025-12-15 15:24:16 -05:00
parent a450c64a30
commit 60dbf7d8f1
2 changed files with 24 additions and 18 deletions
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -931,10 +931,11 @@ def init_worker_distributed_environment(
    backend: str = "nccl",
 ) -> None:
    """Initialize the distributed environment."""
+    attention_config = vllm_config.attention_config
    parallel_config = vllm_config.parallel_config
    from vllm.model_executor.layers.batch_invariant import init_batch_invariance

-    init_batch_invariance()
+    init_batch_invariance(attention_config.backend)
    set_custom_all_reduce(not parallel_config.disable_custom_all_reduce)

    init_method = distributed_init_method or "env://"