[Hardware][CPU] Support AWQ for CPU backend (#7515)

2024-10-10 00:28:08 +08:00
parent 7dea289066
commit ca77dd7a44
9 changed files with 214 additions and 7 deletions
--- a/vllm/model_executor/layers/quantization/init.py
+++ b/vllm/model_executor/layers/quantization/init.py
@@ -21,6 +21,7 @@ from vllm.model_executor.layers.quantization.gptq_marlin import (
    GPTQMarlinConfig)
 from vllm.model_executor.layers.quantization.gptq_marlin_24 import (
    GPTQMarlin24Config)
+from vllm.model_executor.layers.quantization.ipex_quant import IPEXConfig
 from vllm.model_executor.layers.quantization.marlin import MarlinConfig
 from vllm.model_executor.layers.quantization.modelopt import ModelOptFp8Config
 from vllm.model_executor.layers.quantization.neuron_quant import (
@@ -49,6 +50,7 @@ QUANTIZATION_METHODS: Dict[str, Type[QuantizationConfig]] = {
    "qqq": QQQConfig,
    "experts_int8": ExpertsInt8Config,
    "neuron_quant": NeuronQuantConfig,
+    "ipex": IPEXConfig,
 }