tests/unit/qk_verify_kernel.cuh

/**
 * DSV4 FMHA — QK GEMM verification with SWIZZLE_NONE UMMA layout.
 */
#pragma once

#include "fmha_common.cuh"
#include "fmha_umma_desc.cuh"
#include <cstdint>

namespace dsv4::kernels::attention {

template<int HD>
__global__ void __launch_bounds__(NTHREADS)
fmha_qk_verify(
    const bf16_t* __restrict__ q, const bf16_t* __restrict__ k,
    float* __restrict__ s_out,
    int bstride_q, int bstride_kv,
    int s_k, float scale
) {
    const int head = blockIdx.y, batch = blockIdx.z, tid = threadIdx.x;
    const int wid = tid / WARP, lane = tid % WARP;

    const bf16_t* qh = q + batch*bstride_q + head*HD;
    const bf16_t* kb = k + batch*bstride_kv;

    // SMEM layout (256B aligned for UMMA):
    // [0..127]   padding
    // [128..131] tmem_base
    // [132..255] padding
    // [256..256+128*HD*2) sQ (128×HD BF16 row-major)
    // [256+128*HD*2..) sK (128×HD BF16 row-major)
    extern __shared__ char sbuf[];
    uint32_t* sTmemBase = (uint32_t*)(sbuf + 128);
    bf16_t* sQ = (bf16_t*)(sbuf + 256);
    bf16_t* sK = sQ + 128 * HD;

    // Load Q and K to SMEM
    int kv_len = min(128, s_k);
    for (int i = tid; i < 128 * HD; i += NTHREADS) {
        int r = i / HD, c = i % HD;
        sQ[i] = (r == 0 && c < HD) ? qh[c] : 0;
        sK[i] = (r < kv_len) ? kb[r * HD + c] : 0;
    }
    __syncthreads();

    // Sanity check: scalar QK dot product
    if (tid == 0) {
        float dot = 0;
        for (int d = 0; d < HD; d++) {
            dot += bf16_to_f32(sQ[d]) * bf16_to_f32(sK[d]);
        }
        s_out[0] = dot * scale;  // row 0, col 0 (scalar reference)
        s_out[1] = bf16_to_f32(sQ[0]);  // Q[0,0]
        s_out[2] = bf16_to_f32(sK[0]);  // K[0,0]
    }

    // TMEM alloc
    if (wid == 0) {
        uint32_t smem_ptr = __cvta_generic_to_shared(sTmemBase);
        tmem_alloc(smem_ptr, 128);
    }
    __syncthreads();
    uint32_t tmem_base = *sTmemBase;

    // Zero TMEM
    if (wid == 0) {
        for (int col = 0; col < 128; col++) {
            tmem_store(tmem_base + col, 0, 0, 0, 0);
        }
        tmem_fence_store();
    }
    __syncthreads();

    // UMMA descriptors (SWIZZLE_NONE with proper strides)
    uint32_t sQ_smem = __cvta_generic_to_shared(sQ);
    uint32_t sK_smem = __cvta_generic_to_shared(sK);

    // MN-major NONE for (128, 64) BF16:
    //   LBO=16 (uint128_t), SBO=128 (uint128_t)
    uint64_t desc_q = 0;
    desc_q |= (static_cast<uint64_t>(sQ_smem >> 4) & 0x3FFF);
    desc_q |= (static_cast<uint64_t>(16) & 0x3FFF) << 16;
    desc_q |= (static_cast<uint64_t>(128) & 0x3FFF) << 32;
    desc_q |= (static_cast<uint64_t>(1) << 46);

    // K-major NONE for (128, 64) BF16:
    //   LBO=16, SBO=32
    uint64_t desc_k = 0;
    desc_k |= (static_cast<uint64_t>(sK_smem >> 4) & 0x3FFF);
    desc_k |= (static_cast<uint64_t>(16) & 0x3FFF) << 16;
    desc_k |= (static_cast<uint64_t>(32) & 0x3FFF) << 32;
    desc_k |= (static_cast<uint64_t>(1) << 46);

    // QK GEMM
    if (wid == 0) {
        umma_ss_f16(tmem_base, desc_q, desc_k, false);
    }
    __syncwarp();
    if (wid == 0 && lane == 0) tmem_fence_store();
    __syncthreads();

    // Read S row 0 from TMEM
    if (tid == 0) {
        uint32_t u0, u1, u2, u3;
        tmem_load(tmem_base + 0, u0, u1, u2, u3);
        s_out[3] = u32_to_f32(u0) * scale;  // MMA result: S[0,0]
        s_out[4] = u32_to_f32(u1) * scale;  // S[0,1]
        s_out[5] = u32_to_f32(u2) * scale;  // S[0,2]
        s_out[6] = u32_to_f32(u3) * scale;  // S[0,3]
    }
    __syncthreads();

    // Dealloc TMEM
    if (wid == 0) tmem_dealloc(tmem_base, 128);
}

} // namespace
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								/**
-												feat: SWIZZLE_NONE UMMA descriptors with row-major SMEM

Canonical UMMA layout for SWIZZLE_NONE:
- MN-major (128, 64): LBO=16, SBO=128 (from logical_divide Tile(1,8))
- K-major (128, 64): LBO=16, SBO=32 (from logical_divide Tile(8,2))

Using simple row-major SMEM layout (no swizzle, no permutation).
Data is written directly to SMEM in row-major order.
The descriptor strides describe the canonical layout.

											
										
										
											2026-05-28 08:35:30 +00:00
+								 * DSV4 FMHA — QK GEMM verification with SWIZZLE_NONE UMMA layout.
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								 */
 								#pragma once
 								#include "fmha_common.cuh"
 								#include "fmha_umma_desc.cuh"
-												fix: align SMEM buffers to 16 bytes for UMMA descriptors

											
										
										
											2026-05-28 08:02:53 +00:00
+								#include <cstdint>
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
 								namespace dsv4::kernels::attention {
 								template<int HD>
 								__global__ void __launch_bounds__(NTHREADS)
 								fmha_qk_verify(
 								    const bf16_t* __restrict__ q, const bf16_t* __restrict__ k,
-												feat: SWIZZLE_NONE UMMA descriptors with row-major SMEM

Canonical UMMA layout for SWIZZLE_NONE:
- MN-major (128, 64): LBO=16, SBO=128 (from logical_divide Tile(1,8))
- K-major (128, 64): LBO=16, SBO=32 (from logical_divide Tile(8,2))

Using simple row-major SMEM layout (no swizzle, no permutation).
Data is written directly to SMEM in row-major order.
The descriptor strides describe the canonical layout.

											
										
										
											2026-05-28 08:35:30 +00:00
+								    float* __restrict__ s_out,
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								    int bstride_q, int bstride_kv,
 								    int s_k, float scale
 								) {
 								    const int head = blockIdx.y, batch = blockIdx.z, tid = threadIdx.x;
 								    const int wid = tid / WARP, lane = tid % WARP;
 								    const bf16_t* qh = q + batch*bstride_q + head*HD;
 								    const bf16_t* kb = k + batch*bstride_kv;
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								    // SMEM layout (256B aligned for UMMA):
 								    // [0..127]   padding
 								    // [128..131] tmem_base
 								    // [132..255] padding
 								    // [256..256+128*HD*2) sQ (128×HD BF16 row-major)
 								    // [256+128*HD*2..) sK (128×HD BF16 row-major)
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								    extern __shared__ char sbuf[];
-												fix: align SMEM layout properly (128B aligned tmem + Q)

											
										
										
											2026-05-28 08:46:56 +00:00
+								    uint32_t* sTmemBase = (uint32_t*)(sbuf + 128);
 								    bf16_t* sQ = (bf16_t*)(sbuf + 256);
-												feat: SWIZZLE_NONE UMMA descriptors with row-major SMEM

Canonical UMMA layout for SWIZZLE_NONE:
- MN-major (128, 64): LBO=16, SBO=128 (from logical_divide Tile(1,8))
- K-major (128, 64): LBO=16, SBO=32 (from logical_divide Tile(8,2))

Using simple row-major SMEM layout (no swizzle, no permutation).
Data is written directly to SMEM in row-major order.
The descriptor strides describe the canonical layout.

											
										
										
											2026-05-28 08:35:30 +00:00
+								    bf16_t* sK = sQ + 128 * HD;
-												feat: implement canonical UMMA SMEM layout with SWIZZLE_128B

Proper implementation of the SMEM layout that tcgen05.mma expects:
- SWIZZLE_128B (layout_type=2) for both MN-major A and K-major B
- Swizzle<3,4,3> applied to element offsets before SMEM write
- MN_SW128 atom: (1024, 8) BF16, stride (1, 1024)
- K_SW128 atom: (8, 1024) BF16, stride (1, 8)
- umma_smem_write/read functions for both MN and K major
- Descriptor with correct leading_byte_offset and stride_byte_offset

This is the RIGHT WAY. No shortcuts.

											
										
										
											2026-05-28 08:18:47 +00:00
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								    // Load Q and K to SMEM
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								    int kv_len = min(128, s_k);
-												feat: SWIZZLE_NONE UMMA descriptors with row-major SMEM

Canonical UMMA layout for SWIZZLE_NONE:
- MN-major (128, 64): LBO=16, SBO=128 (from logical_divide Tile(1,8))
- K-major (128, 64): LBO=16, SBO=32 (from logical_divide Tile(8,2))

Using simple row-major SMEM layout (no swizzle, no permutation).
Data is written directly to SMEM in row-major order.
The descriptor strides describe the canonical layout.

											
										
										
											2026-05-28 08:35:30 +00:00
+								    for (int i = tid; i < 128 * HD; i += NTHREADS) {
 								        int r = i / HD, c = i % HD;
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								        sQ[i] = (r == 0 && c < HD) ? qh[c] : 0;
-												feat: SWIZZLE_NONE UMMA descriptors with row-major SMEM

Canonical UMMA layout for SWIZZLE_NONE:
- MN-major (128, 64): LBO=16, SBO=128 (from logical_divide Tile(1,8))
- K-major (128, 64): LBO=16, SBO=32 (from logical_divide Tile(8,2))

Using simple row-major SMEM layout (no swizzle, no permutation).
Data is written directly to SMEM in row-major order.
The descriptor strides describe the canonical layout.

											
										
										
											2026-05-28 08:35:30 +00:00
+								        sK[i] = (r < kv_len) ? kb[r * HD + c] : 0;
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								    }
 								    __syncthreads();
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								    // Sanity check: scalar QK dot product
 								    if (tid == 0) {
 								        float dot = 0;
 								        for (int d = 0; d < HD; d++) {
 								            dot += bf16_to_f32(sQ[d]) * bf16_to_f32(sK[d]);
 								        }
 								        s_out[0] = dot * scale;  // row 0, col 0 (scalar reference)
 								        s_out[1] = bf16_to_f32(sQ[0]);  // Q[0,0]
 								        s_out[2] = bf16_to_f32(sK[0]);  // K[0,0]
 								    }
 								    // TMEM alloc
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								    if (wid == 0) {
 								        uint32_t smem_ptr = __cvta_generic_to_shared(sTmemBase);
 								        tmem_alloc(smem_ptr, 128);
 								    }
 								    __syncthreads();
 								    uint32_t tmem_base = *sTmemBase;
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								    // Zero TMEM
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								    if (wid == 0) {
 								        for (int col = 0; col < 128; col++) {
-												feat: SWIZZLE_NONE UMMA descriptors with row-major SMEM

Canonical UMMA layout for SWIZZLE_NONE:
- MN-major (128, 64): LBO=16, SBO=128 (from logical_divide Tile(1,8))
- K-major (128, 64): LBO=16, SBO=32 (from logical_divide Tile(8,2))

Using simple row-major SMEM layout (no swizzle, no permutation).
Data is written directly to SMEM in row-major order.
The descriptor strides describe the canonical layout.

											
										
										
											2026-05-28 08:35:30 +00:00
+								            tmem_store(tmem_base + col, 0, 0, 0, 0);
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								        }
 								        tmem_fence_store();
 								    }
 								    __syncthreads();
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								    // UMMA descriptors (SWIZZLE_NONE with proper strides)
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								    uint32_t sQ_smem = __cvta_generic_to_shared(sQ);
 								    uint32_t sK_smem = __cvta_generic_to_shared(sK);
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								    // MN-major NONE for (128, 64) BF16:
 								    //   LBO=16 (uint128_t), SBO=128 (uint128_t)
-												debug: minimal UMMA descriptor (just start_addr + version)

											
										
										
											2026-05-28 08:48:01 +00:00
+								    uint64_t desc_q = 0;
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								    desc_q |= (static_cast<uint64_t>(sQ_smem >> 4) & 0x3FFF);
 								    desc_q |= (static_cast<uint64_t>(16) & 0x3FFF) << 16;
 								    desc_q |= (static_cast<uint64_t>(128) & 0x3FFF) << 32;
 								    desc_q |= (static_cast<uint64_t>(1) << 46);
-												debug: minimal UMMA descriptor (just start_addr + version)

											
										
										
											2026-05-28 08:48:01 +00:00
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								    // K-major NONE for (128, 64) BF16:
 								    //   LBO=16, SBO=32
-												debug: minimal UMMA descriptor (just start_addr + version)

											
										
										
											2026-05-28 08:48:01 +00:00
+								    uint64_t desc_k = 0;
 								    desc_k |= (static_cast<uint64_t>(sK_smem >> 4) & 0x3FFF);
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								    desc_k |= (static_cast<uint64_t>(16) & 0x3FFF) << 16;
 								    desc_k |= (static_cast<uint64_t>(32) & 0x3FFF) << 32;
-												debug: minimal UMMA descriptor (just start_addr + version)

											
										
										
											2026-05-28 08:48:01 +00:00
+								    desc_k |= (static_cast<uint64_t>(1) << 46);
-												debug: print UMMA descriptor values for diagnosis

											
										
										
											2026-05-28 08:03:53 +00:00
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								    // QK GEMM
-												debug: try all-lane MMA + print tmem_base

											
										
										
											2026-05-28 08:37:02 +00:00
+								    if (wid == 0) {
-												feat: SWIZZLE_NONE UMMA descriptors with row-major SMEM

Canonical UMMA layout for SWIZZLE_NONE:
- MN-major (128, 64): LBO=16, SBO=128 (from logical_divide Tile(1,8))
- K-major (128, 64): LBO=16, SBO=32 (from logical_divide Tile(8,2))

Using simple row-major SMEM layout (no swizzle, no permutation).
Data is written directly to SMEM in row-major order.
The descriptor strides describe the canonical layout.

											
										
										
											2026-05-28 08:35:30 +00:00
+								        umma_ss_f16(tmem_base, desc_q, desc_k, false);
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								    }
 								    __syncwarp();
-												feat: SWIZZLE_NONE UMMA descriptors with row-major SMEM

Canonical UMMA layout for SWIZZLE_NONE:
- MN-major (128, 64): LBO=16, SBO=128 (from logical_divide Tile(1,8))
- K-major (128, 64): LBO=16, SBO=32 (from logical_divide Tile(8,2))

Using simple row-major SMEM layout (no swizzle, no permutation).
Data is written directly to SMEM in row-major order.
The descriptor strides describe the canonical layout.

											
										
										
											2026-05-28 08:35:30 +00:00
+								    if (wid == 0 && lane == 0) tmem_fence_store();
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								    __syncthreads();
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								    // Read S row 0 from TMEM
-												debug: print TMEM values after MMA

											
										
										
											2026-05-28 08:38:08 +00:00
+								    if (tid == 0) {
-												debug: clean QK verify with scalar sanity + MMA result

											
										
										
											2026-05-28 08:53:35 +00:00
+								        uint32_t u0, u1, u2, u3;
 								        tmem_load(tmem_base + 0, u0, u1, u2, u3);
 								        s_out[3] = u32_to_f32(u0) * scale;  // MMA result: S[0,0]
 								        s_out[4] = u32_to_f32(u1) * scale;  // S[0,1]
 								        s_out[5] = u32_to_f32(u2) * scale;  // S[0,2]
 								        s_out[6] = u32_to_f32(u3) * scale;  // S[0,3]
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								    }
 								    __syncthreads();
 								    // Dealloc TMEM
-												feat: SWIZZLE_NONE UMMA descriptors with row-major SMEM

Canonical UMMA layout for SWIZZLE_NONE:
- MN-major (128, 64): LBO=16, SBO=128 (from logical_divide Tile(1,8))
- K-major (128, 64): LBO=16, SBO=32 (from logical_divide Tile(8,2))

Using simple row-major SMEM layout (no swizzle, no permutation).
Data is written directly to SMEM in row-major order.
The descriptor strides describe the canonical layout.

											
										
										
											2026-05-28 08:35:30 +00:00
+								    if (wid == 0) tmem_dealloc(tmem_base, 128);
-												feat: add tcgen05.mma QK GEMM verification kernel + test

Step 1 of tensor-core acceleration:
- fmha_umma_desc.cuh: UMMA SMEM descriptor construction (raw bitfield)
- fmha_qk_verify.cuh: QK GEMM using tcgen05.mma SS (SMEM A, SMEM B → TMEM C)
- test_qk_mma.cu: standalone test comparing MMA output vs CPU reference

Key design decisions:
- UMMA descriptors built from raw bitfield (no CuTe dependency)
- tcgen05.mma called by one lane per warp (elect_one_sync pattern)
- Q: (128, HD) MN-major, K: (128, HD) K-major (transposed via descriptor)
- S: (128, 128) in TMEM, row 0 read back via tcgen05.ld

											
										
										
											2026-05-28 08:00:42 +00:00
+								}
 								} // namespace