vllm/tests/quantization/test_fp8.py at 8332078cfdbd5e44e527893b695e79052d008172

Files

Jonas M. Kübler 98e7f223b9 enable skipping of SW attention layers when using FP8 KV cache (#33695 )

Signed-off-by: Jonas Kuebler <kuebj@amazon.com>

2026-03-27 07:25:02 -06:00

View Raw