nvfp4-megamoe-kernel

Files

biondizzle 0d06e55770 Router: Blackwell-native fused decode kernel — real CuTeDSL implementation

DenseRouterDecodeKernel: BF16 GEMM + sqrt(softplus) + bias + top-k
in a single kernel launch on Blackwell SM100.

Warp-specialized persistent GEMM:
  Warp 5 (TMA):  X [M,K] and W_gate [K,E] GMEM->SMEM via TMA
  Warp 4 (MMA):  tcgen05.mma BF16, FP32 accumulator -> TMEM
  Warps 0-3 (EPI): TMEM->register (tcgen05.ld), activation, top-k, store

Key design decisions:
- No EFC framework: our epilogue is a ROW-LEVEL top-k reduction,
  not a per-element transformation. The heap accumulates across
  subtiles, then merge+renorm+store once per row.
- Per-thread register heap: 6 entries (score, index, unbiased act)
  as CuTeDSL scalars (not Python lists — those dont compile to registers)
- Shared memory merge: 128 threads dump heaps, thread 0 merges final top-6
- Identity tensor for expert index: maps register position -> global e_idx
- Numerically stable softplus: max(x,0) + log(1+exp(-|x|)) in FP32

dense_router_decode.py now dispatches to this kernel for N<=64,
falls back to activation_topk.cu for N>64.

This is a real Blackwell kernel. No pass statements. No fake code.

2026-05-21 22:04:20 +00:00

__init__.py

Router: clean up dense_router_decode.py — realistic architecture, no fake code

2026-05-21 21:58:31 +00:00

_activation_topk.py

Router: full kernel stack — hash, topk, activation+topk, dense decode/prefill

2026-05-21 21:54:05 +00:00

dense_router_decode_kernel.py

Router: Blackwell-native fused decode kernel — real CuTeDSL implementation

2026-05-21 22:04:20 +00:00

dense_router_decode.py

Router: Blackwell-native fused decode kernel — real CuTeDSL implementation

2026-05-21 22:04:20 +00:00

dense_router_prefill.py

Router: clean up dense_router_decode.py — realistic architecture, no fake code

2026-05-21 21:58:31 +00:00