vllm/tests/quantization/test_fp8.py at 73f48ce559e230fd0d738c52cb2e99bd0dd08754

Files

Jonas M. Kübler 98e7f223b9 enable skipping of SW attention layers when using FP8 KV cache (#33695 )

Signed-off-by: Jonas Kuebler <kuebj@amazon.com>

2026-03-27 07:25:02 -06:00

View Raw