[Kernels] Isolate modular kernel code from FusedMoEMethodBase subclasses. (#27123)

2025-11-04 08:59:45 -05:00
parent e4ee658672
commit 938772af03
16 changed files with 271 additions and 311 deletions
--- a/vllm/model_executor/layers/quantization/gptq_marlin.py
+++ b/vllm/model_executor/layers/quantization/gptq_marlin.py
@@ -742,8 +742,6 @@ class GPTQMarlinMoEMethod(FusedMoEMethodBase):
        logical_to_physical_map: torch.Tensor | None = None,
        logical_replica_count: torch.Tensor | None = None,
    ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        assert self.fused_experts is None
-
        if enable_eplb:
            raise NotImplementedError(
                "EPLB not supported for `GPTQMarlinMoEMethod` yet."