[Model][Quant] Fix GLM, Fix fused module mappings for quantization (#12634)

Signed-off-by: mgoin <michael@neuralmagic.com> Signed-off-by: Kyle Sayers <kylesayrs@gmail.com> Co-authored-by: mgoin <michael@neuralmagic.com>
2025-02-05 00:32:06 -05:00
parent 686006a220
commit 7ff7a638b6
12 changed files with 194 additions and 150 deletions
--- a/vllm/model_executor/layers/quantization/base_config.py
+++ b/vllm/model_executor/layers/quantization/base_config.py
@@ -2,7 +2,7 @@

 import inspect
 from abc import ABC, abstractmethod
-from typing import Any, Dict, List, Optional, Type
+from typing import Any, Dict, List, Mapping, Optional, Type

 import torch
 from torch import nn
@@ -59,6 +59,7 @@ def method_has_implemented_embedding(

 class QuantizationConfig(ABC):
    """Base class for quantization configs."""
+    packed_modules_mapping: Mapping[str, List[str]] = dict()

    @abstractmethod
    def get_name(self) -> str: