[Core] Support multi-node inference(eager and cuda graph) (#3686)

2024-03-29 06:01:55 +08:00
parent a4075cba4d
commit 515386ef3c
7 changed files with 25 additions and 22 deletions
--- a/tests/distributed/test_custom_all_reduce.py
+++ b/tests/distributed/test_custom_all_reduce.py
@@ -23,7 +23,7 @@ def graph_allreduce(world_size, rank, distributed_init_port):
    del os.environ["CUDA_VISIBLE_DEVICES"]
    device = torch.device(f"cuda:{rank}")
    torch.cuda.set_device(device)
-    init_test_distributed_environment(1, world_size, rank,
+    init_test_distributed_environment(1, world_size, rank, rank,
                                      distributed_init_port)

    custom_ar.init_custom_ar()
@@ -58,7 +58,7 @@ def eager_allreduce(world_size, rank, distributed_init_port):
    del os.environ["CUDA_VISIBLE_DEVICES"]
    device = torch.device(f"cuda:{rank}")
    torch.cuda.set_device(device)
-    init_test_distributed_environment(1, world_size, rank,
+    init_test_distributed_environment(1, world_size, rank, rank,
                                      distributed_init_port)

    sz = 1024