vllm/csrc/quantization/gptq_marlin at bc8ed3c4bad05f5b1d37f34d5a8d324c23e84785 - vllm

Files

Jinzhen Lin d0feea31c7 [Kernel] optimize performance of gptq marlin kernel when n is small (#14138 )

Signed-off-by: Jinzhen Lin <linjinzhen@hotmail.com>

2025-03-07 11:53:38 -05:00

awq_marlin_repack.cu

2024-10-03 22:55:25 -04:00

gptq_marlin_repack.cu

2024-10-03 22:55:25 -04:00

gptq_marlin.cu

2025-03-07 11:53:38 -05:00

marlin_dtypes.cuh

2024-07-21 19:41:42 -04:00

marlin.cuh

2024-07-21 19:41:42 -04:00