[Quantization] enable compressed-tensors marlin support for turing (2) (#31008)

Signed-off-by: Jinzhen Lin <jinzhen.ljz@antgroup.com>
2025-12-19 16:56:35 +08:00
parent ac1c934276
commit 9187de9fac
3 changed files with 3 additions and 3 deletions
--- a/vllm/model_executor/layers/quantization/utils/marlin_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/marlin_utils.py
@@ -48,7 +48,7 @@ def query_marlin_supported_quant_types(
            -1 if capability_tuple is None else capability_tuple.to_int()
        )

-    if device_capability < 80:
+    if device_capability < 75:
        return []

    # - has_zp is True: return quant_types that has zero points