[Quantization] Add compressed-tensors NVFP4 MoE Support (#19990)

Signed-off-by: Dipika Sikka <dipikasikka1@gmail.com> Signed-off-by: Dipika <dipikasikka1@gmail.com>
2025-06-30 00:05:40 +02:00
parent 7b1895e6ce
commit 6f2f53a82d
6 changed files with 295 additions and 22 deletions
--- a/tests/quantization/test_compressed_tensors.py
+++ b/tests/quantization/test_compressed_tensors.py
@@ -17,7 +17,7 @@ from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tenso
    CompressedTensorsW4A4Fp4, CompressedTensorsW4A16Fp4,
    CompressedTensorsW4A16Sparse24, CompressedTensorsW8A8Fp8,
    CompressedTensorsW8A8Int8, CompressedTensorsW8A16Fp8,
-    CompressedTensorsWNA16)
+    CompressedTensorsWNA16, cutlass_fp4_supported)
 from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
    sparse_cutlass_supported)
 from vllm.platforms import current_platform
@@ -668,8 +668,8 @@ def test_compressed_tensors_nvfp4(vllm_runner, args):
            assert isinstance(qkv_proj.quant_method,
                              CompressedTensorsLinearMethod)
            if isinstance(qkv_proj.scheme, scheme) or isinstance(
-                    qkv_proj.scheme, CompressedTensorsW4A16Fp4
-            ) and not CompressedTensorsW4A4Fp4.cutlass_fp4_supported():
+                    qkv_proj.scheme,
+                    CompressedTensorsW4A16Fp4) and not cutlass_fp4_supported():
                assert True
            else:
                raise AssertionError("FP4 Scheme Mismatch")