[Core] Deprecating block manager v1 and make block manager v2 default (#8704)

Removing the block manager v1. This is the initial piece of prefix-caching-centric design. In order to achieve prefix-caching-centric design, we need to simplify the code path so that we only use v2 block manager (which has much higher performance on prefix caching).
2024-10-17 11:38:15 -05:00
parent 5eda21e773
commit 81ede99ca4
45 changed files with 206 additions and 2109 deletions
--- a/tests/spec_decode/e2e/test_compatibility.py
+++ b/tests/spec_decode/e2e/test_compatibility.py
@@ -1,27 +1,15 @@
 import pytest

-from tests.utils import check_deprecated_block_manager_usage
 from vllm import SamplingParams

 from .conftest import get_output_from_llm_generator


-@pytest.fixture(scope="module", autouse=True)
-def check_deprecated_block_manager():
-    check_deprecated_block_manager_usage(
-        'tests/spec_decode/e2e/test_compatibility.py')
-
-
-@pytest.mark.parametrize(
-    "common_llm_kwargs",
-    [{
-        "model": "JackFram/llama-68m",
-        "speculative_model": "JackFram/llama-68m",
-        "num_speculative_tokens": 5,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
-    }])
+@pytest.mark.parametrize("common_llm_kwargs", [{
+    "model": "JackFram/llama-68m",
+    "speculative_model": "JackFram/llama-68m",
+    "num_speculative_tokens": 5,
+}])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [
    {
        "enable_chunked_prefill": True,
@@ -51,16 +39,11 @@ def test_spec_decode_xfail_chunked_prefill(test_llm_generator):
                                      sampling_params)


-@pytest.mark.parametrize(
-    "common_llm_kwargs",
-    [{
-        "model": "meta-llama/Llama-2-7b-chat-hf",
-        "speculative_model": "JackFram/llama-68m",
-        "num_speculative_tokens": 5,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
-    }])
+@pytest.mark.parametrize("common_llm_kwargs", [{
+    "model": "meta-llama/Llama-2-7b-chat-hf",
+    "speculative_model": "JackFram/llama-68m",
+    "num_speculative_tokens": 5,
+}])
@pytest.mark.parametrize(
    "per_test_common_llm_kwargs",
    [
@@ -101,34 +84,3 @@ def test_spec_decode_xfail_spec_max_model_len(test_llm_generator):
    with pytest.raises(ValueError, match="cannot be larger than"):
        get_output_from_llm_generator(test_llm_generator, prompts,
                                      sampling_params)
-
-
-@pytest.mark.parametrize("common_llm_kwargs", [{
-    "model": "JackFram/llama-68m",
-    "speculative_model": "JackFram/llama-68m",
-    "num_speculative_tokens": 5,
-    "use_v2_block_manager": False,
-}])
-@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
-@pytest.mark.parametrize("test_llm_kwargs", [{}])
-@pytest.mark.parametrize("seed", [1])
-def test_spec_decode_xfail_block_manager_v1(test_llm_generator):
-    """Verify that speculative decoding with block manager v1 fails.
-    """
-    output_len = 128
-    temperature = 0.0
-
-    prompts = [
-        "Hello, my name is",
-    ]
-
-    sampling_params = SamplingParams(
-        max_tokens=output_len,
-        ignore_eos=True,
-        temperature=temperature,
-    )
-
-    with pytest.raises(ValueError,
-                       match="Speculative decoding requires usage of the V2"):
-        get_output_from_llm_generator(test_llm_generator, prompts,
-                                      sampling_params)
--- a/tests/spec_decode/e2e/test_eagle_correctness.py
+++ b/tests/spec_decode/e2e/test_eagle_correctness.py
@@ -43,9 +43,6 @@ PRECISION = "float32"
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,

@@ -86,9 +83,6 @@ def test_eagle_e2e_greedy_correctness(vllm_runner, common_llm_kwargs,
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,

@@ -143,9 +137,6 @@ def test_eagle_e2e_greedy_logprobs(vllm_runner, common_llm_kwargs,
    [{
        "enforce_eager": False,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,

@@ -191,9 +182,6 @@ def test_eagle_e2e_greedy_correctness_cuda_graph(
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Precision
        "dtype": PRECISION,

@@ -235,9 +223,6 @@ def test_eagle_e2e_greedy_correctness_with_preemption(
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Precision
        "dtype": PRECISION,

@@ -283,9 +268,6 @@ def test_eagle_different_k(vllm_runner, common_llm_kwargs,
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Precision
        "dtype": PRECISION,

--- a/tests/spec_decode/e2e/test_integration.py
+++ b/tests/spec_decode/e2e/test_integration.py
@@ -12,8 +12,6 @@ MAIN_MODEL = "JackFram/llama-68m"
@pytest.mark.parametrize(
    "common_llm_kwargs",
    [{
-        # Required for spec decode.
-        "use_v2_block_manager": True,

        # Verify equality when cuda graphs allowed.
        "enforce_eager": False,
@@ -57,9 +55,6 @@ def test_spec_decode_cuda_graph(vllm_runner, common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True,
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [
    {
@@ -111,9 +106,6 @@ def test_speculative_model_quantization_config(vllm_runner, common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True,
        "speculative_model": "JackFram/llama-68m",
        "num_speculative_tokens": 3,
    }])
--- a/tests/spec_decode/e2e/test_integration_dist_tp2.py
+++ b/tests/spec_decode/e2e/test_integration_dist_tp2.py
@@ -17,9 +17,6 @@ from .conftest import run_equality_correctness_test_tp
    [[
        # Skip cuda graph recording for fast test.
        "--enforce-eager",
-
-        # Required for spec decode.
-        "--use-v2-block-manager",
        "--tensor-parallel-size",
        "2"
    ]])
@@ -74,9 +71,6 @@ def test_target_model_tp_gt_1(common_llm_kwargs, per_test_common_llm_kwargs,
    [[
        # Skip cuda graph recording for fast test.
        "--enforce-eager",
-
-        # Required for spec decode.
-        "--use_v2_block_manager",
        "--tensor_parallel_size",
        "2",

--- a/tests/spec_decode/e2e/test_integration_dist_tp4.py
+++ b/tests/spec_decode/e2e/test_integration_dist_tp4.py
@@ -19,9 +19,6 @@ SPEC_MODEL = "JackFram/llama-68m"
    [[
        # Skip cuda graph recording for fast test.
        "--enforce_eager",
-
-        # Required for spec decode.
-        "--use-v2-block-manager",
        "--tensor-parallel-size",
        "4",
    ]])
@@ -71,9 +68,6 @@ def test_draft_model_tp_lt_target_model_tp4(common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "--enforce-eager",
-
-        # Required for spec decode.
-        "--use-v2-block-manager",
        "--tensor-parallel-size",
        "4",
    ]])
--- a/tests/spec_decode/e2e/test_logprobs.py
+++ b/tests/spec_decode/e2e/test_logprobs.py
@@ -14,9 +14,6 @@ from .conftest import run_equality_correctness_test

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True,
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
@pytest.mark.parametrize("baseline_llm_kwargs", [{}])
@@ -67,9 +64,6 @@ def test_logprobs_equality(vllm_runner, common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
@pytest.mark.parametrize("baseline_llm_kwargs", [{}])
@@ -119,9 +113,6 @@ def test_logprobs_different_k(vllm_runner, common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
@pytest.mark.parametrize("baseline_llm_kwargs", [{}])
@@ -173,9 +164,6 @@ def test_logprobs_when_skip_speculation(vllm_runner, common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
@pytest.mark.parametrize("baseline_llm_kwargs", [{}])
@@ -251,8 +239,6 @@ def test_logprobs_temp_1(vllm_runner, common_llm_kwargs,
        "model_name": "JackFram/llama-160m",
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-        # Required for spec decode.
-        "use_v2_block_manager": True,
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
@pytest.mark.parametrize("baseline_llm_kwargs", [{}])
--- a/tests/spec_decode/e2e/test_medusa_correctness.py
+++ b/tests/spec_decode/e2e/test_medusa_correctness.py
@@ -45,9 +45,6 @@ PRECISION = "float32"
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,

@@ -93,9 +90,6 @@ def test_medusa_e2e_greedy_correctness(vllm_runner, common_llm_kwargs,
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,

@@ -151,9 +145,6 @@ def test_medusa_e2e_greedy_logprobs(vllm_runner, common_llm_kwargs,
    [{
        "enforce_eager": False,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,

@@ -204,9 +195,6 @@ def test_medusa_e2e_greedy_correctness_cuda_graph(
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Precision
        "dtype": PRECISION,

@@ -253,9 +241,6 @@ def test_medusa_e2e_greedy_correctness_with_preemption(
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Precision
        "dtype": PRECISION,

@@ -306,9 +291,6 @@ def test_medusa_different_k(vllm_runner, common_llm_kwargs,
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Precision
        "dtype": PRECISION,

@@ -356,9 +338,6 @@ def test_medusa_disable_queue(vllm_runner, common_llm_kwargs,
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Precision
        "dtype": PRECISION,

--- a/tests/spec_decode/e2e/test_mlp_correctness.py
+++ b/tests/spec_decode/e2e/test_mlp_correctness.py
@@ -47,9 +47,6 @@ PRECISION = "float32"
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,

@@ -94,9 +91,6 @@ def test_mlp_e2e_greedy_correctness(vllm_runner, common_llm_kwargs,
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,

@@ -149,9 +143,6 @@ def test_mlp_e2e_greedy_logprobs(vllm_runner, common_llm_kwargs,
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,

@@ -195,9 +186,6 @@ def test_mlp_e2e_acceptance_rate(vllm_runner, common_llm_kwargs,
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,

@@ -258,9 +246,6 @@ def test_mlp_e2e_seeded_correctness(vllm_runner, common_llm_kwargs,
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Precision
        "dtype": PRECISION,

@@ -311,9 +296,6 @@ def test_mlp_e2e_greedy_correctness_with_preemption(
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Precision
        "dtype": PRECISION,

@@ -366,9 +348,6 @@ def test_mlp_e2e_greedy_correctness_with_padding(
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Precision
        "dtype": PRECISION,

@@ -419,9 +398,6 @@ def test_mlp_different_k(vllm_runner, common_llm_kwargs,
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Precision
        "dtype": PRECISION,

@@ -469,9 +445,6 @@ def test_mlp_disable_queue(vllm_runner, common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True,
        "speculative_model": SPEC_MODEL,
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
--- a/tests/spec_decode/e2e/test_multistep_correctness.py
+++ b/tests/spec_decode/e2e/test_multistep_correctness.py
@@ -55,9 +55,6 @@ from .conftest import (get_output_from_llm_generator,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True,
    }])
@pytest.mark.parametrize(
    "per_test_common_llm_kwargs",
@@ -124,9 +121,6 @@ def test_spec_decode_e2e_with_detokenization(test_llm_generator,
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,
    }])
@@ -190,9 +184,6 @@ def test_spec_decode_e2e_greedy_correctness_tiny_model_bs1(
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,
    }])
@@ -246,9 +237,6 @@ def test_spec_decode_e2e_greedy_correctness_tiny_model_large_bs(
    [{
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize(
    "per_test_common_llm_kwargs",
@@ -303,9 +291,6 @@ def test_spec_decode_e2e_greedy_correctness_tiny_model_large_bs_diff_output_len(
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,
    }])
@@ -353,9 +338,6 @@ def test_spec_decode_e2e_greedy_correctness_real_model_bs1(
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,
    }])
@@ -404,9 +386,6 @@ def test_spec_decode_e2e_greedy_correctness_real_model_large_bs(

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [
    {
@@ -454,9 +433,6 @@ def test_spec_decode_e2e_greedy_correctness_with_preemption(

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize(
    "per_test_common_llm_kwargs",
@@ -514,9 +490,6 @@ def test_spec_decode_different_block_size(vllm_runner, common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
@pytest.mark.parametrize("baseline_llm_kwargs", [{}])
@@ -570,9 +543,6 @@ def test_skip_speculation(vllm_runner, common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
@pytest.mark.parametrize("baseline_llm_kwargs", [{}])
@@ -611,9 +581,6 @@ def test_disable_speculation(vllm_runner, common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
@pytest.mark.parametrize("baseline_llm_kwargs", [{}])
@@ -660,9 +627,6 @@ def test_many_k(vllm_runner, common_llm_kwargs, per_test_common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
@pytest.mark.parametrize("baseline_llm_kwargs", [{}])
--- a/tests/spec_decode/e2e/test_ngram_correctness.py
+++ b/tests/spec_decode/e2e/test_ngram_correctness.py
@@ -35,9 +35,6 @@ from .conftest import run_equality_correctness_test
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,
    }])
@@ -82,9 +79,6 @@ def test_ngram_e2e_greedy_correctness(vllm_runner, common_llm_kwargs,
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # Print spec metrics.
        "disable_log_stats": False,
    }])
@@ -145,9 +139,6 @@ def test_ngram_e2e_greedy_logprobs(vllm_runner, common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [
    {
@@ -195,9 +186,6 @@ def test_ngram_e2e_greedy_correctness_with_preemption(

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
@pytest.mark.parametrize("baseline_llm_kwargs", [{}])
@@ -254,9 +242,6 @@ def test_ngram_different_k(vllm_runner, common_llm_kwargs,

        # Skip cuda graph recording for fast test.
        "enforce_eager": True,
-
-        # Required for spec decode.
-        "use_v2_block_manager": True
    }])
@pytest.mark.parametrize("per_test_common_llm_kwargs", [{}])
@pytest.mark.parametrize("baseline_llm_kwargs", [{}])
@@ -303,7 +288,6 @@ def test_ngram_disable_queue(vllm_runner, common_llm_kwargs,
        "enforce_eager": True,

        # Required for spec decode.
-        "use_v2_block_manager": True,
        "speculative_model": "[ngram]",
        "num_speculative_tokens": 5,
        "ngram_prompt_lookup_max": 3,
--- a/tests/spec_decode/e2e/test_seed.py
+++ b/tests/spec_decode/e2e/test_seed.py
@@ -17,9 +17,6 @@ SPEC_MODEL = "JackFram/llama-160m"
        # Skip cuda graph recording for fast test.
        "enforce_eager": True,

-        # Required for spec decode.
-        "use_v2_block_manager": True,
-
        # speculative model
        "speculative_model": "JackFram/llama-160m",