[Perf] Add SM 10.3 (B300/GB300) all-reduce communicator tuning (#37756)
Signed-off-by: Mohammad Miadh Angkad <176301910+mmangkad@users.noreply.github.com>
This commit is contained in:
committed by
GitHub
parent
88f1b374f5
commit
61e381dcf0
@@ -62,6 +62,11 @@ FI_ALLREDUCE_FUSION_MAX_SIZE_MB: dict[int, dict[int, float]] = {
|
|||||||
4: 32, # 32MB
|
4: 32, # 32MB
|
||||||
8: 1, # 1MB
|
8: 1, # 1MB
|
||||||
},
|
},
|
||||||
|
103: {
|
||||||
|
2: 64, # 64MB
|
||||||
|
4: 64, # 64MB
|
||||||
|
8: 2, # 2MB
|
||||||
|
},
|
||||||
}
|
}
|
||||||
|
|
||||||
# Max size of the input tensor per world size per device capability
|
# Max size of the input tensor per world size per device capability
|
||||||
@@ -78,6 +83,11 @@ _FI_ALLREDUCE_ONE_SHOT_MAX_SIZES_MB: dict[int, dict[int, float]] = {
|
|||||||
4: 4, # 4MB
|
4: 4, # 4MB
|
||||||
8: 1, # 1MB
|
8: 1, # 1MB
|
||||||
},
|
},
|
||||||
|
103: {
|
||||||
|
2: 32, # 32MB
|
||||||
|
4: 4, # 4MB
|
||||||
|
8: 2, # 2MB
|
||||||
|
},
|
||||||
}
|
}
|
||||||
|
|
||||||
|
|
||||||
|
|||||||
@@ -44,6 +44,12 @@ CUSTOM_ALL_REDUCE_MAX_SIZES = {
|
|||||||
6: 1 * MiB, # 1 MB
|
6: 1 * MiB, # 1 MB
|
||||||
8: 1 * MiB, # 1 MB
|
8: 1 * MiB, # 1 MB
|
||||||
},
|
},
|
||||||
|
"10.3": {
|
||||||
|
2: 4 * MiB, # 4 MB
|
||||||
|
4: 4 * MiB, # 4 MB
|
||||||
|
6: 8 * MiB, # 8 MB
|
||||||
|
8: 4 * MiB, # 4 MB
|
||||||
|
},
|
||||||
}
|
}
|
||||||
|
|
||||||
SYMM_MEM_ALL_REDUCE_MAX_SIZES = {
|
SYMM_MEM_ALL_REDUCE_MAX_SIZES = {
|
||||||
@@ -59,6 +65,12 @@ SYMM_MEM_ALL_REDUCE_MAX_SIZES = {
|
|||||||
6: 128 * MiB, # 128 MB
|
6: 128 * MiB, # 128 MB
|
||||||
8: 128 * MiB, # 128 MB
|
8: 128 * MiB, # 128 MB
|
||||||
},
|
},
|
||||||
|
"10.3": {
|
||||||
|
2: 4 * MiB, # 4 MB
|
||||||
|
4: 32 * MiB, # 32 MB
|
||||||
|
6: 32 * MiB, # 32 MB
|
||||||
|
8: 64 * MiB, # 64 MB
|
||||||
|
},
|
||||||
}
|
}
|
||||||
|
|
||||||
# NCCL symmetric memory allreduce configuration based on H100 and GB200 benchmarks.
|
# NCCL symmetric memory allreduce configuration based on H100 and GB200 benchmarks.
|
||||||
|
|||||||
@@ -28,6 +28,7 @@ class SymmMemCommunicator:
|
|||||||
_WORLD_SIZES_MULTIMEM = {
|
_WORLD_SIZES_MULTIMEM = {
|
||||||
"9.0": [4, 6, 8],
|
"9.0": [4, 6, 8],
|
||||||
"10.0": [6, 8],
|
"10.0": [6, 8],
|
||||||
|
"10.3": [6, 8],
|
||||||
}
|
}
|
||||||
|
|
||||||
def __init__(
|
def __init__(
|
||||||
|
|||||||
Reference in New Issue
Block a user