[Bugfix] Fix triton import with local TritonPlaceholder (#17446)

Signed-off-by: Mengqing Cao <cmq0113@163.com>
2025-05-06 17:53:09 +08:00
parent 05e1f96419
commit f9bc5a0693
30 changed files with 165 additions and 75 deletions
--- a/vllm/model_executor/layers/quantization/awq_triton.py
+++ b/vllm/model_executor/layers/quantization/awq_triton.py
@@ -1,8 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0

 import torch
-import triton
-import triton.language as tl
+
+from vllm.triton_utils import tl, triton

 AWQ_TRITON_SUPPORTED_GROUP_SIZES = [-1, 32, 64, 128]

--- a/vllm/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/triton_scaled_mm.py
@@ -3,8 +3,8 @@
 from typing import Optional, Type

 import torch
-import triton
-import triton.language as tl
+
+from vllm.triton_utils import tl, triton


 def is_weak_contiguous(x: torch.Tensor):
--- a/vllm/model_executor/layers/quantization/utils/fp8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/fp8_utils.py
@@ -7,8 +7,6 @@ import os
 from typing import Any, Dict, List, Optional, Tuple, Union

 import torch
-import triton
-import triton.language as tl

 from vllm import _custom_ops as ops
 from vllm.logger import init_logger
@@ -17,6 +15,7 @@ from vllm.model_executor.layers.quantization.utils.quant_utils import (
 from vllm.model_executor.layers.quantization.utils.w8a8_utils import (
    CUTLASS_BLOCK_FP8_SUPPORTED)
 from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton
 from vllm.utils import direct_register_custom_op

 logger = init_logger(__name__)
--- a/vllm/model_executor/layers/quantization/utils/int8_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/int8_utils.py
@@ -8,10 +8,9 @@ import os
 from typing import Any, Dict, List, Optional, Tuple

 import torch
-import triton
-import triton.language as tl

 from vllm.platforms import current_platform
+from vllm.triton_utils import tl, triton

 logger = logging.getLogger(__name__)