tests/models/language/pooling_mteb_test/test_voyage.py

# SPDX-License-Identifier: Apache-2.0
# SPDX-FileCopyrightText: Copyright contributors to the vLLM project

import pytest

from tests.models.language.pooling.embed_utils import correctness_test_embed_models
from tests.models.utils import EmbedModelInfo

from .mteb_embed_utils import mteb_test_embed_models

MODELS = [
    EmbedModelInfo(
        "voyageai/voyage-4-nano",
        architecture="VoyageQwen3BidirectionalEmbedModel",
        enable_test=True,
        seq_pooling_type="MEAN",
        attn_type="encoder_only",
        is_prefix_caching_supported=False,
        is_chunked_prefill_supported=False,
        hf_overrides={
            "architectures": ["VoyageQwen3BidirectionalEmbedModel"],
            "num_labels": 2048,
        },
        mteb_score=0.7054,
        # === MTEB Results ===
        # STS12: 0.6613
        # STS13: 0.6906
        # STS14: 0.6556
        # STS15: 0.7843
        # STS16: 0.7340
        # STSBenchmark: 0.7063
        # Average score: 0.7054
    ),
]


@pytest.mark.parametrize("model_info", MODELS)
def test_embed_models_mteb(hf_runner, vllm_runner, model_info: EmbedModelInfo) -> None:
    # Encoder-only attention models need enforce_eager=True to avoid
    # CUDA graph capture issues with piecewise compilation
    mteb_test_embed_models(
        hf_runner, vllm_runner, model_info, vllm_extra_kwargs={"enforce_eager": True}
    )


@pytest.mark.parametrize("model_info", MODELS)
def test_embed_models_correctness(
    hf_runner, vllm_runner, model_info: EmbedModelInfo, example_prompts
) -> None:
    correctness_test_embed_models(
        hf_runner,
        vllm_runner,
        model_info,
        example_prompts,
        vllm_extra_kwargs={"enforce_eager": True},
    )
Onboard voyage-4-nano (#33720) Signed-off-by: Chengcheng Pei <chengchengpei@outlook.com> Signed-off-by: chengchengpei <5881383+chengchengpei@users.noreply.github.com> Co-authored-by: chengchengpei <5881383+chengchengpei@users.noreply.github.com> Co-authored-by: gemini-code-assist[bot] <176961590+gemini-code-assist[bot]@users.noreply.github.com> 2026-02-05 22:23:34 -08:00			`# SPDX-License-Identifier: Apache-2.0`
			`# SPDX-FileCopyrightText: Copyright contributors to the vLLM project`

			`import pytest`

			`from tests.models.language.pooling.embed_utils import correctness_test_embed_models`
			`from tests.models.utils import EmbedModelInfo`

			`from .mteb_embed_utils import mteb_test_embed_models`

			`MODELS = [`
			`EmbedModelInfo(`
			`"voyageai/voyage-4-nano",`
			`architecture="VoyageQwen3BidirectionalEmbedModel",`
			`enable_test=True,`
			`seq_pooling_type="MEAN",`
			`attn_type="encoder_only",`
			`is_prefix_caching_supported=False,`
			`is_chunked_prefill_supported=False,`
			`hf_overrides={`
			`"architectures": ["VoyageQwen3BidirectionalEmbedModel"],`
			`"num_labels": 2048,`
			`},`
			`mteb_score=0.7054,`
			`# === MTEB Results ===`
			`# STS12: 0.6613`
			`# STS13: 0.6906`
			`# STS14: 0.6556`
			`# STS15: 0.7843`
			`# STS16: 0.7340`
			`# STSBenchmark: 0.7063`
			`# Average score: 0.7054`
			`),`
			`]`


			`@pytest.mark.parametrize("model_info", MODELS)`
			`def test_embed_models_mteb(hf_runner, vllm_runner, model_info: EmbedModelInfo) -> None:`
			`# Encoder-only attention models need enforce_eager=True to avoid`
			`# CUDA graph capture issues with piecewise compilation`
			`mteb_test_embed_models(`
			`hf_runner, vllm_runner, model_info, vllm_extra_kwargs={"enforce_eager": True}`
			`)`


			`@pytest.mark.parametrize("model_info", MODELS)`
			`def test_embed_models_correctness(`
			`hf_runner, vllm_runner, model_info: EmbedModelInfo, example_prompts`
			`) -> None:`
			`correctness_test_embed_models(`
			`hf_runner,`
			`vllm_runner,`
			`model_info,`
			`example_prompts,`
			`vllm_extra_kwargs={"enforce_eager": True},`
			`)`