vllm/vllm/v1/worker at 8958217ad5a6830c4d911e5f15e6eb791df337b6 - vllm

Files

Hiroaki Sugiyama 8958217ad5 [Bugfix] Fix use_cascade_attention handling for Alibi-based models on vllm/v1 (#15211 )

Signed-off-by: h-sugi <h.sugi@ieee.org>
Co-authored-by: Woosuk Kwon <woosuk.kwon@berkeley.edu>

2025-03-27 22:29:29 +08:00

__init__.py

2024-10-22 01:24:07 -07:00

block_table.py

2025-03-02 17:34:51 -08:00

gpu_input_batch.py

2025-03-24 12:27:57 -04:00

gpu_model_runner.py

2025-03-27 22:29:29 +08:00

gpu_worker.py

2025-03-21 04:56:27 -07:00

lora_model_runner_mixin.py

2025-03-18 09:47:53 +00:00

tpu_model_runner.py

2025-03-26 22:46:26 -07:00

tpu_worker.py

2025-03-27 00:09:28 +00:00

worker_base.py

2025-03-21 04:56:27 -07:00