vllm/vllm/attention/ops at fe743b798dfa56aea3e2cb7182365ba3495489ee - vllm

Files

Aleksandr Malyshev 64862d106e [ROCM][AMD][TRITON] Halving warps number for fw_prefill to reduce spilling (#12713 )

Signed-off-by: Aleksandr Malyshev <maleksan@amd.com>
Co-authored-by: Aleksandr Malyshev <maleksan@amd.com>

2025-02-05 03:58:22 +00:00

2025-02-02 11:58:18 -08:00

__init__.py

2024-03-25 04:39:33 +00:00

hpu_paged_attn.py

2025-02-02 11:58:18 -08:00

ipex_attn.py

2025-02-02 11:58:18 -08:00

nki_flash_attn.py

2025-02-02 11:58:18 -08:00

paged_attn.py

2025-02-02 11:58:18 -08:00

prefix_prefill.py

2025-02-05 03:58:22 +00:00

triton_decode_attention.py

2025-02-04 18:22:24 -08:00

triton_flash_attention.py

2025-02-03 11:16:59 -08:00