[Core/DBO][1/N] Add Dual-Batch Overlap mechanism to VLLM (#23693)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: Sage Moore <sage@neuralmagic.com> Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> Signed-off-by: yewentao256 <zhyanwentao@126.com> Co-authored-by: Lucas Wilkinson <lwilkins@redhat.com> Co-authored-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> Co-authored-by: yewentao256 <zhyanwentao@126.com> Co-authored-by: Lucas Wilkinson <LucasWilkinson@users.noreply.github.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-redhat@users.noreply.github.com>
2025-09-16 09:21:48 -07:00
parent 08369289af
commit 567939953b
22 changed files with 1257 additions and 172 deletions
--- a/examples/offline_inference/data_parallel.py
+++ b/examples/offline_inference/data_parallel.py
@@ -87,6 +87,11 @@ def parse_args():
        default=0.8,
        help=("Fraction of GPU memory vLLM is allowed to allocate (0.0, 1.0]."),
    )
+    parser.add_argument(
+        "--enable-dbo",
+        action="store_true",
+        help=("Enable microbatched execution"),
+    )
    parser.add_argument(
        "--compilation-config",
        type=int,
@@ -113,6 +118,7 @@ def main(
    max_model_len,
    compilation_config,
    gpu_memory_utilization,
+    enable_dbo,
    quantization,
 ):
    os.environ["VLLM_DP_RANK"] = str(global_dp_rank)
@@ -167,6 +173,7 @@ def main(
        max_num_seqs=max_num_seqs,
        max_model_len=max_model_len,
        gpu_memory_utilization=gpu_memory_utilization,
+        enable_dbo=enable_dbo,
        quantization=quantization,
        compilation_config=compilation_config,
    )
@@ -227,6 +234,7 @@ if __name__ == "__main__":
                args.max_model_len,
                args.compilation_config,
                args.gpu_memory_utilization,
+                args.enable_dbo,
                args.quantization,
            ),
        )