vllm/vllm/v1/kv_offload at bd2b52fc2dd09b401991835c8a2a6f2ef940b2e4 - vllm - Gitea: Git with a cup of tea

biondizzle/vllm

Files

History

Or Ozeri 174e39ead7 CPU KV Offloading: Use more CUDA streams (#29013 )

Signed-off-by: Or Ozeri <oro@il.ibm.com>

2025-12-14 23:50:45 +00:00

..

Convert formatting to use ruff instead of yapf + isort (#26247 )

2025-10-05 07:06:22 -07:00

CPU KV Offloading: Use more CUDA streams (#29013 )

2025-12-14 23:50:45 +00:00

__init__.py

[Docs] Enable fail_on_warning for the docs build in CI (#25580 )

2025-09-24 19:30:33 +00:00

abstract.py

Update Optional[x] -> x | None and Union[x, y] to x | y (#26633 )

2025-10-12 09:51:31 -07:00

arc_manager.py

Implement ARC KV cache eviction policy for CPU offloader (#27039 )

2025-11-12 09:51:39 -08:00

backend.py

Convert formatting to use ruff instead of yapf + isort (#26247 )

2025-10-05 07:06:22 -07:00

cpu.py

CPU KV Offloading: Use more CUDA streams (#29013 )

2025-12-14 23:50:45 +00:00

factory.py

Update Optional[x] -> x | None and Union[x, y] to x | y (#26633 )

2025-10-12 09:51:31 -07:00

lru_manager.py

Update Optional[x] -> x | None and Union[x, y] to x | y (#26633 )

2025-10-12 09:51:31 -07:00

mediums.py

[KV offload][1b/N] rename offloading to kv_offload (#25191 )

2025-09-18 20:53:52 +00:00

spec.py

[Attention] Update attention imports (#29540 )

2025-11-27 11:19:09 -05:00