vllm/benchmarks/cutlass_benchmarks at 68ad4e3a8d8a66fb2a43be57471ee13a8bec4ec0 - vllm

Files

Dipika Sikka 60508ffda9 [Kernel]: Cutlass 2:4 Sparsity + FP8/Int8 Quant Support (#10995 )

Co-authored-by: Faraz Shahsavan <faraz.shahsavan@gmail.com>
Co-authored-by: ilmarkov <markovilya197@gmail.com>
Co-authored-by: Rahul Tuli <rahul@neuralmagic.com>
Co-authored-by: rshaw@neuralmagic.com <rshaw@neuralmagic.com>

2024-12-18 09:57:16 -05:00

sparse_benchmarks.py

[Kernel]: Cutlass 2:4 Sparsity + FP8/Int8 Quant Support (#10995 )

2024-12-18 09:57:16 -05:00

utils.py

[Kernel]: Cutlass 2:4 Sparsity + FP8/Int8 Quant Support (#10995 )

2024-12-18 09:57:16 -05:00

w8a8_benchmarks.py

[Kernel]: Cutlass 2:4 Sparsity + FP8/Int8 Quant Support (#10995 )

2024-12-18 09:57:16 -05:00

weight_shapes.py

[Kernel]: Cutlass 2:4 Sparsity + FP8/Int8 Quant Support (#10995 )

2024-12-18 09:57:16 -05:00