This website requires JavaScript.
Explore
Help
Register
Sign In
biondizzle
/
nvfp4-megamoe-kernel
Watch
1
Star
0
Fork
0
You've already forked nvfp4-megamoe-kernel
Code
Issues
Pull Requests
Actions
Packages
Projects
Releases
Wiki
Activity
Files
1ba304db3edcb98a6768fdf179f98500d3c8b913
nvfp4-megamoe-kernel
/
tests
/
unit
History
biondizzle
08694b8136
Fix multi-row softmax v3: 32x32b.x8 with per-lane per-row (no wmax/wsum), per-row sRowMax/sRowSum arrays
2026-05-28 20:10:13 +00:00
..
__init__.py
…
cudagraph_test.py
…
layertest.py
…
test_cotiled_diag.py
…
test_cutedsl.py
…
test_d1_3_cotiled.py
…
test_d1_3_layout_diag.py
…
test_d1_3_smem_diag.py
…
test_d1_3_smem_direct.py
…
test_d1_3_smem_vs_tmem.py
…
test_d1_3_unnorm_debug.py
…
test_d1_3_write_read.py
…
test_d1_debug.py
…
test_d1_diag2.py
…
test_d1_diag.py
…
test_d1_hd512_merge.py
…
test_d1_hd512_only.py
…
test_d1_hd512.py
…
test_d1_kv_merge_v2.py
…
test_d1_kv_merge_v3.py
…
test_d1_kv_merge.py
…
test_d1_lse_verify.py
…
test_d1_lse.py
…
test_d1_multi_kv.py
…
test_d1_qk512.py
…
test_d1_raw.py
…
test_d1_regression.py
…
test_d1_rescale_debug.py
…
test_d1_rescale_diag.py
…
test_d1_rescale_min.py
…
test_d1_smem128.py
…
test_d1_sweep.py
…
test_d1_tmem_only.py
…
test_d1_tmem_trip.py
…
test_d2_headpacked.py
…
test_d2_multicta.py
…
test_d2_multihead.py
…
test_d2_perhead.py
…
test_d2_regression.py
…
test_d2_scale.py
…
test_d3_inkernel_mask.py
…
test_d3_swa_mask.py
…
test_d4_causal_mask.py
…
test_d5b_perrow_lse.py
…
test_d5c_fused.py
…
test_d5c_multitile.py
…
test_d15_in_kernel_rescale.py
…
test_d15_multi_kv.py
…
test_d15_noop_rescale.py
…
test_d15_rescale_debug.py
…
test_d15_roundtrip_iso.py
…
test_fmha_6warp_hd16.cu
…
test_fmha_6warp_hd64.cu
…
test_fmha_6warp_hd128.cu
…
test_fmha_6warp_hd256.cu
…
test_fmha_6warp_multihead_hd16.cu
…
test_fmha_6warp_multihead_hd64.cu
…
test_fmha_6warp_multihead_hd128.cu
…
test_fmha_6warp_multihead_hd256.cu
…
test_fmha_6warp_multihead.cu
…
test_fmha_6warp_multirow_hd16.cu
…
test_fmha_6warp_multirow_hd64.cu
…
test_fmha_6warp_multirow_hd128.cu
…
test_fmha_6warp_multirow_hd256.cu
…
test_fmha_6warp_multirow.cu
…
test_fmha_6warp.cu
…
test_fmha_gen_kernel.cuh
…
test_fmha_gen.cu
…
test_fmha_hd16_gen.cu
…
test_fmha_hd16_v2.cu
…
test_fmha_hd16.cu
…
test_fmha_hd64_debug.cu
…
test_fmha_hd64_gen.cu
…
test_fmha_hd64_n16_v2.cu
…
test_fmha_hd64_n16.cu
…
test_fmha_hd64_smem_p.cu
…
test_fmha_hd64.cu
…
test_fmha_hd128_gen.cu
…
test_fmha_hd256_gen.cu
…
test_fmha_pv16.py
…
test_fmha_sm100_standalone.cu
…
test_fmha_sm100.py
…
test_fmha_smem_p.cu
…
test_fmha_softmax.cu
…
test_fmha_ts_full.cu
…
test_fmha_ts_hd16.cu
…
test_fmha_v3_stage_c.py
…
test_fmha_v3_stage_d1.py
…
test_fmha_v3_stage_d5b.py
…
test_fmha_v3.py
…
test_fmha_v4.cu
…
test_fmha_v5.cu
…
test_fp4_roundtrip.py
…
test_int32_cast.py
…
test_minimal_pv.cu
…
test_mma_ts_copy.cu
…
test_mma_ts.cu
…
test_nvfp4_1_1_layout.py
…
test_nvfp4_1_1_quant.py
…
test_nvfp4_diag.py
…
test_nvfp4_gpu_quantize.py
…
test_nvfp4_primitives.py
…
test_nvfp4_quant_kernel.py
…
test_nvfp4_quantize_kernel.py
…
test_paired_epilog.py
…
test_production.py
…
test_pv_accum.cu
…
test_pv_ss_128.cu
…
test_pv_ss_b64.cu
…
test_pv_ss.cu
…
test_qk_mma.cu
…
test_qk_pv_layout.cu
…
test_smem_acc.py
…
test_smem_budget.py
…
test_smem_p_coord.py
…
test_smem_p_diag.py
…
test_smem_p_write.py
…
test_softmax_pv.cu
…
test_ss_ts_sequence.cu
…
test_sw128_qk.cu
…
test_tma_5d.cu
…
test_tma_align.cu
…
test_tma_debug.cu
…
test_tma_driver.cu
…
test_tma_load.cu
…
test_tma_proper.cu
…
test_tmem_all_lanes.cu
…
test_tmem_budget.py
…
test_tmem_cols.cu
…
test_tmem_lane_mapping.cu
…
test_tmem_layout_full.cu
…
test_tmem_layout_pv64.cu
…
test_tmem_minimal.cu
…
test_tmem_roundtrip_minimal.py
…
test_tmem_zero_pv.cu
…
test_ultra_minimal.py
…
test_umma_qk_hd64.cu
…
test_umma_qk.cu
…