[Bugfix] Allow skipping MoE in NVFP4 (fix for MTP) (#25987)

Signed-off-by: Benjamin Chislett <bchislett@nvidia.com>
2025-10-06 16:16:30 -04:00
parent f23b4c04fd
commit 2161efe978
5 changed files with 18 additions and 5 deletions
--- a/vllm/model_executor/layers/fused_moe/layer.py
+++ b/vllm/model_executor/layers/fused_moe/layer.py
@@ -1194,6 +1194,8 @@ class FusedMoE(CustomOp):
            if quant_config is None
            else quant_config.get_quant_method(self, prefix)
        )
+        if quant_method is None:
+            quant_method = UnquantizedFusedMoEMethod(moe)

        assert quant_method is not None
        assert isinstance(quant_method, FusedMoEMethodBase)